SlideShare une entreprise Scribd logo
1  sur  24
VIOPS06 WORKSHOP
Infiniband技術動向および導入事例
July 22nd, 2011
メラノックス テクノロジーズ ジャパン株式会社
日本地区担当ジェネラルマネージャ
津村英樹
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 2
会社概要
 HPC、金融、クラウド市場の要求を満たす最高性能
のITシステムを実現するソリューションプロバイダー
• インフィニバンドと10G/40GbEtherのEnd-Endソリューションを
提供する高速ネットワーク市場のリーディングカンパニー
• 2011年3月時点で、750万ポート以上を出荷
 本社:
• イスラエル ヨークナム, カリフォルニア州サニーベール
• 675人の従業員; ワールドワイドのセールス&サポート
 順調な業績推移、優良な財務状況
• 2010年度の記録的な売上; $154.6M
• 2011年度第一四半期売上= $55.1M
• 2011年度第二四半期見込~$61.5 – 62.0M
Voltaire社との相互補完的な合併を完了
Recent Awards
Ticker: MLNX
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 3
インフィニバンド概要
 物理層の仕様
• Infiniband Trade Associationで定義された標準規格
• 物理層は10Gbit EthernetやFibre Channelと同じIEEE802.3がベース
• 現行の規格では一方向あたり信号帯域幅2.5Gbps(QDR)、3.5Gbps(FDR)
• QDRまでは8B/10B、FDRからは64B/66Bの符号方式を採用
• 全二重通信のため双方向の合計帯域幅は2倍
• 複数の接続(レーン)の集束が可能(4x、12x)
• Node-Node : 56Gbps (FDR 4x)
• Switch-Switch : 168Gbps (FDR 12x)
• 1μs以下のアプリケーション・レーテンシー
 インフィニバンド固有の様々な特長
 MPI(メッセージ・パッシング・インタフェース)
• 高い伝送効率を実現するチャネルアーキテクチャ
- PCIエクスプレスのロードストア・アーキテクチャはCPUが接続するI/Oデバイスと直接送受信
するため、遅いI/Oデバイスの使用時や接続数が多くなるとオーバーヘッドが大きくなる。
- チャネル・アーキテクチャではCPUは必要なデータをメモリに書き込んだらあとは別のタスク
に移行できる。I/Oデバイスは自分の速度に合ったペースでメモリからデータを取得する。
- I/Oデバイスの数が増えてもオーバーヘッドは小さいため、大規模システムにも対応可能。
- メラノックス社のConnect-XシリーズHost Channel Adapter用コントローラ チップが提供する
様々なオフロード機能により、さらに高効率、低レイテンシーな通信が実現できます。
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 4
メラノックスが提供する効果的なオフロード機能
 RDMA (Remote Direct Memory Access)
• 独立したシステムのメインメモリ間、システムとストレージ間のデータ転
送を効率化するテクノロジ。メモリ間のデータ転送時にはホストCPUの
割り込みがほとんど発生しないため、ホストCPUの オーバーヘッド低
下に
加え、データ転送時のレイテンシ短縮にもつながる。
• 10Gbit Ethernetを利用する場合、システム構築や運用管理が
InfiniBandよりも容易という利点を持つ。
Ethernet上でRDMA機能を実現するRDMA over EthernetもMellanox
社HCAではサポートしており、non-HPC市場での導入が進んでいる。
 CPU Offload
• TransportレイヤとNetworkレイヤをHCAのチップがハードウェアで処理
することにより、CPUの負荷を軽減できる。
 カーネル・バイパス
• InfiniBandで使用されるSDP(Sockets Direct Protocol)は、アプリケー
ションとその下にあるハードウェアを透過的に接続する基本的なソケット
メカニズムを提供する。これによりInfiniBandを併用しながら従来の
TCP/IPソフトウェアモデルを使い続けられる。
• ハードウェアがInfiniBandの場合には、複雑なトランスポート処理を
InfiniBand HCA(Host Channel Adapter)がOSカーネルで直接行える
ようになる。これにより、ソフトウェアからはTCP/IPに見せながら、設定
の変更は殆ど無しにInfiniBandの利点を享受できる。(IP over IB)
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 5
Host/Fabric
Software
最先端のE2Eソリューションを実現するラインナップ
Virtual Protocol Interconnect
Storage
Front / Back-EndServer / Compute Switch / Gateway
56G IB & FCoIB 56G InfiniBand
10/40GigE & FCoE
10/40GigE
Industries Only End-to-End InfiniBand and Ethernet Portfolio
ICs Switches/GatewaysAdapter Cards Cables
Fibre Channel
Virtual Protocol Interconnect
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 6
メラノックスInfiniBand製品群の特長
 最高のスループット
• node to nodeの転送レートがQDRで40Gb/s、FDRで56Gb/s
• QDRで約90M MPI messages / 秒
• ゼロ・コピーでSend/receiveおよびRDMA operationsを実行
 低レイテンシー
• 1-1.3usec MPI end-to-end
• 0.7-1us InfiniBand latency for RDMA operations
• Lowest latency switch fabric – up to 45% lower vs other solutions
 最小のCPUオーバーヘッド
• フル・トランスポート・オフロードにより、ユーザ・アプリケーション
に対するCPUの稼働率を最大化
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 7
Mellanox in the TOP500 - (June 2011)
 Mellanox InfiniBand builds the most powerful clusters
• Connects 5 out of the TOP10, 61 systems in TOP100, 115 in TOP200, 147 in TOP300
 InfiniBand represents 42% of the TOP500
 Mellanox InfiniBand enables the highest utilization on the TOP500
• Up to 96% system utilization
 Mellanox InfiniBand enables the most energy efficiency Petascale system
 Mellanox 10GbE is the highest ranked 10GbE system (#124)
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 8
Paving The Road to Exascale Computing
 Mellanox InfiniBand is the interconnect of choice for PetaScale computing
• Accelerating 50% of the sustained PetaScale systems (5 systems out of 10)
Dawning (China) TSUBAME (Japan) NASA (USA)
>11K nodes
CEA (France)LANL (USA)
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 9
9 of Top 10
Automotive
Manufacturers
5 of Top 10
Pharmaceutical
Companies
7 of Top 10
Oil and Gas
Companies
6 of Top 10
Global
Banks
30%+ of Fortune-100 & top global-High Performance Computers
様々な業界の代表企業への導入実績
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 10
コレクティブ・オフロード
 MPI Collective Operations
• コレクティブ通信は初期の入力データを送信するためのブロードキャストや複数の発信源のデータを統
合するリダクション(Reduction)、全体的な同期化のためのバリア(Barrier) のようなオペレーションのた
めにアプリケーションによって頻繁に使用されており、工学・科学アプリケーションの拡張性にきわめ
て大きな影響を与えます。
• コレクティブ通信はシステム内の全てのプロセス/ノードを連結させるために全体的な通信操作を行いま
す。従ってできるだけ効率よく、またできるだけ早く実行されなければなりません。コレクティブ通信
の現在の実装では拡張性が無くシステムノイズに苦しみ、CPU処理 時間の多くを消費してしまいます。
 メラノックス社のコレクティブ・オフロード機能
• Mellanox ConnectX®-2 アダプタと InfiniScale® IV スイッチは、それらアダプタやスイッチへコレクティ
ブ通信をオフロードすることによってこの通信の拡張性の問題に対応します。
• Mellanox のアダプタとスイッチは通信パターンをオフロードし、ノンブロッキングのコレクティブオペ
レーションとアプリケーション計算のオーバーラップを許容することによく適しております。通信の処
理をこのHCA にオフロードすることは、システムノイズの影響を最小限に抑え、通信と計算のオーバー
ラップを飛躍的に増加するための機能を提供します。
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 11
Collective Algorithms (Recursive Doubling)
1 2 3 4
1 2 3 4
1 2 3 4
5 6 7 8
5 6 7 8
5 6 7 8
1 2 3 4 5 6 7 8
OSノイズ
• メッセージをランク2から取得
するまでポーリング状態
• メッセージをランク3に送信 1
1
1
3
5 73
 システムノイズの軽減
• CPU は計算と通信の両方のタスクを実行する必要があり、一般的にはそれらのタスクを順次実行します。
コレクティブオペレーションは CPU のランタイムに深刻なオーバーヘッドを与え、それによって OS ノイズは CPU タス
クの全体の実行時間に対して追加の遅延を発生させます。
• MPI オペレーションによるアプリケーション性能への OS ノイズの影響を以下に図解します。この例では、ランク1(また
はノード1)上の OS ノイズがランク2から期待されるメッセージの到着を遅らせます。この遅延はランク1の実行時間を
増加させるだけでなく間接的に影響を与えるランク3,5,7の実行時間も増加させます。それによってアプリケーショ
ン全体の実行時間に影響を与え、システム全体の性能を务化させます。
 メラノックス社のコレクティブ・オフロード機能
• コレクティブ通信のオペレーションをHCA にオフロードすることはそのCPUの通信管理の負荷を軽減させ、コレクティブ
通信と計算のオーバーラッピング/並列処理の増加を促進します。このオーバーラップにおける更なる利点は CPU の代わ
りにその HCA に計算の一部を実行させることによって実現されます。ConnectX-2 はMPI_Reduce とMPI_Allreduceコレク
ティブオペレーションのデータ操作部分をHCA にオフロードすることを可能にした浮動小数点演算ユニットを含んでいま
す。
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 12
 LS-DYNAは、複雑な実世界での問題をシミュレーションできる構造解析
、流体解析用の汎用シミュレーション・ソフトウェアです。
• LS-DYNA は自動車や飛行機などの製造業における様々なシミュレーションで使用されて
います。
 導入効果: FCAはLS-DYNAの性能を約20%向上することに成功
• 16ノード, 192コア
• アプリケーション性能はクラスタサイズが大きくなるほど向上する
採用事例: LS-DYNA (自動車衝突シミュレーション)
*Acknowledgment: HPC Advisory Council for providing the performance results
Higher is better
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 13
GPU Direct の概要
 Mellanox InfiniBandとNVIDIA GPUの最適な組合せ
• InfiniBandとGPU間のメモリコピーのステップを削減、GPU-to-GPU の通信時間を 30 % 短縮
No GPUDirect
1. GPU が GPU 専用のホストメモリにデータをライトする。
2. ホスト CPU はそのデータを GPU 専用のホストメモリから
インフィニバンドデバイスが RDMA 通信で利用できるホスト
メモリへコピーする。
3. インフィニバンドデバイスはそのデータをリードし、リモート
ノードへデータを転送する。
GPUDirect
NVIDIA GPU Direct は NVIDIA GPU と Mellanox インフィニ
バンドアダプタの間で新しいインタフェースを提供し、双方のデ
バイスで同じシステムメモリを共有することを可能にします。
1. GPU が GPU 専用のホストメモリにデータをライトする。
2. インフィニバンドデバイスはそのデータをリードし、リモート
ノードへデータを転送する。
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 14
性能向上例1 - Amber
 Amber : 分子動力学法向けに開発されたソフトウェアパッケージ
• 二分子反応に関して最も広く利用されているプログラムの一つ
• 広範なユーザーベース
• 原子の動きを計算する分子動力学シミュレーション
 ベンチマーク内容
• FactorIX - 90,906原子から構成される血液凝固第Ⅸ因子のシミュレーション
• Cellulose - 408,609原子から構成されるセルロース繊維のシミュレーション
• PMEMD(粒子メッシュエーヴァルト分子動力学)シミュレーションプログラムを使用
 ベンチマーク システム – 8ノード PCクラスタ
• Mellanox ConnectX-2 HCA と InfiniBand スイッチ
• 各ノードはNVIDIA Fermi C2050 GPUを一つ搭載
FactorIX Cellulose
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 15
Amber Performance with GPUDirect
 GPUDirect によって33%の性能向上
 クラスタサイズの増加に応じてさらに性能向上
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 16
データセンタ内IT基盤のボトルネックの推移
 強力な物理サーバのスペックをア
プリケーションが使用しきれず
CPUとMemoryはアイドル状態
 電力、性能、投資の無駄
80Gb/s
80Gb/s
2 x Quad Core
CPUs
$2800, 240W
8GB
Memory
$600, 96W
Wasted
Wasted
 InfiniBandで統合化されたI/O
 ケーブリング、複雑性の解消
 消費電力やコストの大幅な削減
 低価格&高性能なマルチプロトコル
仮想環境向Converged Network
10-40Gb/s, 1µs, $900, 10W
80Gb/s
80Gb/s
40Gb
/s
 サーバ仮想化により、複数の
仮想サーバがCPUやメモリを
共有することで効率化
 I/Oがボトルネックに配線など、
I/O接続機器と複雑性の増加
=インターコネクト投資増加
12Gb/s, 50µs, $2400, 28W80Gb/s
80Gb/s
16GB
Memory
$1200,
192W
1GigE, 50µs, $100, 4W
過去 現在 今後
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 17
インフィニバンド導入事例
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 18
IO統合によるROI(サーバ40台のケース)
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 19
Mellanox BridgeX によるIO統合イメージ
…
BridgeX System
Network
Attached
Storage or
iSCSI SAN
LAN and WAN
InfiniBand
10/20/40Gb/s
Unified I/O
Virtualized
Ethernet and FC
Ports (IOEV)
Ethernet/IP
Fibre Channel
SAN
NPIV ports
InfiniBand Switch (QDR)
Virtual NICs and
HBAs
Fibre
Channel
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 20
 シームレスにインフィニバンドを導入できる簡易型ソリューション
• バーチャルマシンモニタ(VMM)がダイナミックにソフトウェアをエミュレーションするこ
とにより、HCAなどのハードウェアリソースを複数の仮想マシンが共有できる機能
- Mellanox Para-Virtualization DriverがVMごとにVNICを設定しHypervisorのvSwitchと連携、vNICとその
先にあるVMのMACアドレスのみ学習、それ以外のアドレス管理はBridge-Xの外側に接続される
Ethernet Switchが管理。Ethernetの代替ネットワークとして簡単・低価格にIO統合を実現
Para-Virtualizationとは?
VMM
VM 1 VM 2 VM n
…Virtual
Driver
Virtual
Driver
Virtual
Driver
HW
PF1 PF2 PF n
L2 Virtual Switch
HW HW
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 21
SR-IOVとは?
 PF とVFを組み合せることで、一つのIOデバイスを各仮想マシンに
対して 複数の独立した物理デバイスのように利用できる環境を実現
 VMMのオーバーヘッドを解消し、低いCPU利用率でIOの高速化を
実現できるため、仮想マシンの統合率をさらに向上
vSwitchを介さずに物理IOデバイスのVFが直接
各仮想マシンにアロケーションされることにより、
インフィニバンドの40Gbpsのバンド幅と1μsの
低レイテンシーをフルに活用することが可能に!
Virtual Functions
VMM
VM 1 VM 2 VM n
…Physical
Driver
Physical
Driver
Physical
Driver
Hardware
VF1 VF2 VF n
Layer 2 Classifier
Two new function types that I/O adapters must support
PFs: Physical Functions:
Full PCIe functions that include the SR-IOV Extended
Capability
VFs: Virtual Functions:
Lightweight’ PCIe functions that contain the resources
necessary for data movement but have a carefully
minimized set of configuration resources
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 22
Case Study: Travel/Transportation
Managed hosting server
provisioning time down from 216
hours to 12 hours improving SLA
Lower Cap Ex, Op Ex through I/O
consolidation
Web 2.0
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 23
 Hadoop Direct
 ソフトウェアプラグインとなる Mellanox Hadoop-Direct は、Hadoop ネットワークを加速し、アプリケーションに注力するデータ解析
用の Hadoop クラスタの拡張性を改善します。効率の良い Merge-sort アルゴリズムとこの RDMA を使用した斬新なデータ移動のプロ
トコルは、Mellanox の Infiniband と 10GigE RoCE ( RDMA over Converged Ethernet ) アダプタカードを搭載した Hadoop クラスタに
対して、Hadoop フレームワークを加速させ、サーバー間で効果的にデータを移動させることを可能にします。これは優れたロスレス
ファブリックを実現する Infiniband と RoCE を活用し、クラスタ観点から Hadoop の帯域と演算の問題に取り組んだ初めてのネットワ
ークキングソリューションとなります。Hadoop-Direct は Hadoop ユーザーに対して透過的であり、現在のアプリケーションを変更す
ることなくそのまま実行することができます。
 Hadoop-Direct はデータ処理のスループットを2倍以上に向上させ、また全体のジョブ実行時間を Hadoop ノードごとに半分に減尐させ
ます。より短いジョブ実行時間によるノードあたりの CPU 効率の改善によって、クラスタはより尐ないサーバー数で要求された性能
を満たすことができ、その結果データセンターの消費電力を直接的に削減しデータセンターの環境への取り組みに貢献いたします。
その他のインフィニバンド使用例 (Hadoop Direct)
© 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 24
まとめ
 インフィニバンドは最高速ネットワーク
• 56Gbpsの転送レート+1μs以下の低レイテンシー
• RDMA、Transport Off-load、Kernel BypassなどによるCPU負荷の劇的な軽減
• 様々なオフロード機能:Core Direct/FCA、GPU Direct、Hadoop Direct
 HPC向けだけでは無い、幅広い規格
• ノード間 : IPC/MPI、RDS、SDP、IPoIB、EoIB、RoCE
• ファイルアクセス : SRP、iSER、Luster、FCoIB、FCoE
• 仮想化対応 : SR-IOV、Para-Virtualization、vmDirectPathIO
 拡大する利用用途
• HPC: 大規模科学計算の分野から構造解析、画像処理など小規模クラスタへ
• 用途: DBクラスタ、Hadoop、GemFire、IN-bound/Out-bound Storage System
• 市場: 金融、クラウドコンピューティング、Web2.0、グラフィック

Contenu connexe

Similaire à VIOPS06: Infiniband技術動向および導入事例

Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)
Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)
Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)オラクルエンジニア通信
 
もう一つのHCI VxRackとVBlock
もう一つのHCI VxRackとVBlockもう一つのHCI VxRackとVBlock
もう一つのHCI VxRackとVBlockGaku Takahashi
 
Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月
Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月
Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月VirtualTech Japan Inc.
 
ネットワーク仮想化の導入指南
ネットワーク仮想化の導入指南ネットワーク仮想化の導入指南
ネットワーク仮想化の導入指南Hinemos
 
Webセミナーno pbx(2/4)
Webセミナーno pbx(2/4) Webセミナーno pbx(2/4)
Webセミナーno pbx(2/4) Junya Iizuka
 
第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...
第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...
第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...System x 部 (生!) : しすなま! @ Lenovo Enterprise Solutions Ltd.
 
オープンソース統合運用管理ツール『Hinemos』 --- その利便性及びインシデント管理について ---
オープンソース統合運用管理ツール『Hinemos』  --- その利便性及びインシデント管理について ---オープンソース統合運用管理ツール『Hinemos』  --- その利便性及びインシデント管理について ---
オープンソース統合運用管理ツール『Hinemos』 --- その利便性及びインシデント管理について ---Open Source Software Association of Japan
 
【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション
【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション
【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューションJuniper Networks (日本)
 
0101 Hinemos製品紹介_202101
0101 Hinemos製品紹介_2021010101 Hinemos製品紹介_202101
0101 Hinemos製品紹介_202101Hinemos
 
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成Takashi Kanai
 
CMD2021 f01 xilinx_20210921_r1.1
CMD2021 f01 xilinx_20210921_r1.1CMD2021 f01 xilinx_20210921_r1.1
CMD2021 f01 xilinx_20210921_r1.1Yoshihiro Horie
 
イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~
イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~
イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~Brocade
 
Lagopusで試すFW
Lagopusで試すFWLagopusで試すFW
Lagopusで試すFWTomoya Hibi
 
Contrail overview open stack days tokyo-feb2015
Contrail overview open stack days tokyo-feb2015Contrail overview open stack days tokyo-feb2015
Contrail overview open stack days tokyo-feb2015Nachi Ueno
 
[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略
[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略
[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略EMC Japan
 
2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar
2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar
2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminarInterop Tokyo ShowNet NOC Team
 
Express winter 2017_2018_jp
Express winter 2017_2018_jpExpress winter 2017_2018_jp
Express winter 2017_2018_jpEric Lo
 
JANOG US Regional Event_SDI Trend_Nissho USA
JANOG US Regional Event_SDI Trend_Nissho USAJANOG US Regional Event_SDI Trend_Nissho USA
JANOG US Regional Event_SDI Trend_Nissho USAManabu Nitta
 
Itの変遷とサービスビジネス
Itの変遷とサービスビジネスItの変遷とサービスビジネス
Itの変遷とサービスビジネスKiyoshi Hirose
 
はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)
はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)
はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)オラクルエンジニア通信
 

Similaire à VIOPS06: Infiniband技術動向および導入事例 (20)

Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)
Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)
Hello, シン・高可用性 on Oracle Cloud (Oracle Cloudウェビナーシリーズ: 2021年3月17日)
 
もう一つのHCI VxRackとVBlock
もう一つのHCI VxRackとVBlockもう一つのHCI VxRackとVBlock
もう一つのHCI VxRackとVBlock
 
Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月
Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月
Yahoo!Japan北米DCでOCPのツボをみせてもらってきました - OpenStack最新情報セミナー 2016年5月
 
ネットワーク仮想化の導入指南
ネットワーク仮想化の導入指南ネットワーク仮想化の導入指南
ネットワーク仮想化の導入指南
 
Webセミナーno pbx(2/4)
Webセミナーno pbx(2/4) Webセミナーno pbx(2/4)
Webセミナーno pbx(2/4)
 
第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...
第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...
第23回「NTT DataとIBMが熱く語ります!!OpenFlow/SDNコントローラー開発秘話から 未来まで、裏話もあるよ」(2012/12/20 o...
 
オープンソース統合運用管理ツール『Hinemos』 --- その利便性及びインシデント管理について ---
オープンソース統合運用管理ツール『Hinemos』  --- その利便性及びインシデント管理について ---オープンソース統合運用管理ツール『Hinemos』  --- その利便性及びインシデント管理について ---
オープンソース統合運用管理ツール『Hinemos』 --- その利便性及びインシデント管理について ---
 
【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション
【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション
【Interop Tokyo 2016】 エコシステムですすめる レノボのSDIソリューション
 
0101 Hinemos製品紹介_202101
0101 Hinemos製品紹介_2021010101 Hinemos製品紹介_202101
0101 Hinemos製品紹介_202101
 
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
 
CMD2021 f01 xilinx_20210921_r1.1
CMD2021 f01 xilinx_20210921_r1.1CMD2021 f01 xilinx_20210921_r1.1
CMD2021 f01 xilinx_20210921_r1.1
 
イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~
イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~
イケてる仮想化担当者のための今どきネットワーク虎の巻~VMwareソリューションの効果を最大化する必勝キーワードとその極意~
 
Lagopusで試すFW
Lagopusで試すFWLagopusで試すFW
Lagopusで試すFW
 
Contrail overview open stack days tokyo-feb2015
Contrail overview open stack days tokyo-feb2015Contrail overview open stack days tokyo-feb2015
Contrail overview open stack days tokyo-feb2015
 
[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略
[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略
[OpenStack Days Tokyo 2015] Enterprise Elastic Cloudを実現するEMCのOpenStack戦略
 
2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar
2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar
2021年度ShowNetの作り方・コンセプトと設計思想_ShowNet2021 seminar
 
Express winter 2017_2018_jp
Express winter 2017_2018_jpExpress winter 2017_2018_jp
Express winter 2017_2018_jp
 
JANOG US Regional Event_SDI Trend_Nissho USA
JANOG US Regional Event_SDI Trend_Nissho USAJANOG US Regional Event_SDI Trend_Nissho USA
JANOG US Regional Event_SDI Trend_Nissho USA
 
Itの変遷とサービスビジネス
Itの変遷とサービスビジネスItの変遷とサービスビジネス
Itの変遷とサービスビジネス
 
はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)
はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)
はじめてのOracle Cloud Infrastructure(Oracle Cloudウェビナーシリーズ: 2021年2月3日)
 

Plus de VIOPS Virtualized Infrastructure Operators group ARCHIVES

VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS Virtualized Infrastructure Operators group ARCHIVES
 
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS Virtualized Infrastructure Operators group ARCHIVES
 
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS Virtualized Infrastructure Operators group ARCHIVES
 

Plus de VIOPS Virtualized Infrastructure Operators group ARCHIVES (20)

VIOPS10: サーバーロードマップから考えるクラウドの次
VIOPS10: サーバーロードマップから考えるクラウドの次VIOPS10: サーバーロードマップから考えるクラウドの次
VIOPS10: サーバーロードマップから考えるクラウドの次
 
VIOPS10: DMM.comのインフラのこれから
VIOPS10: DMM.comのインフラのこれからVIOPS10: DMM.comのインフラのこれから
VIOPS10: DMM.comのインフラのこれから
 
VIOPS10: SSDの基本技術と最新動向
VIOPS10: SSDの基本技術と最新動向VIOPS10: SSDの基本技術と最新動向
VIOPS10: SSDの基本技術と最新動向
 
VIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコトVIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコト
 
VIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコトVIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコト
 
VIOPS10: いまパブリッククラウドで起きているコト
VIOPS10: いまパブリッククラウドで起きているコトVIOPS10: いまパブリッククラウドで起きているコト
VIOPS10: いまパブリッククラウドで起きているコト
 
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
 
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
 
VIOPS09: AWSで実現する クラウドと物理製品の融合
VIOPS09: AWSで実現する クラウドと物理製品の融合VIOPS09: AWSで実現する クラウドと物理製品の融合
VIOPS09: AWSで実現する クラウドと物理製品の融合
 
VIOPS09: クラウド時代におけるFusion-ioのポジショニング
VIOPS09: クラウド時代におけるFusion-ioのポジショニングVIOPS09: クラウド時代におけるFusion-ioのポジショニング
VIOPS09: クラウド時代におけるFusion-ioのポジショニング
 
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
 
VIOPS09: その鐘を鳴らすのはあなた
VIOPS09: その鐘を鳴らすのはあなたVIOPS09: その鐘を鳴らすのはあなた
VIOPS09: その鐘を鳴らすのはあなた
 
VIOPS08: マイクロサーバー アーキテクチャトレンド
VIOPS08: マイクロサーバー アーキテクチャトレンドVIOPS08: マイクロサーバー アーキテクチャトレンド
VIOPS08: マイクロサーバー アーキテクチャトレンド
 
VIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for BigdataVIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for Bigdata
 
VIOPS08: ハードウェアオフロードの現在と今後
VIOPS08: ハードウェアオフロードの現在と今後VIOPS08: ハードウェアオフロードの現在と今後
VIOPS08: ハードウェアオフロードの現在と今後
 
VIOPS08: PaaSのメリットと課題
VIOPS08: PaaSのメリットと課題VIOPS08: PaaSのメリットと課題
VIOPS08: PaaSのメリットと課題
 
VIOPS07: “Practical” Guide to GlusterFS
VIOPS07: “Practical” Guide to GlusterFSVIOPS07: “Practical” Guide to GlusterFS
VIOPS07: “Practical” Guide to GlusterFS
 
VIOPS07: アプリケーションサービスの自動化
VIOPS07: アプリケーションサービスの自動化VIOPS07: アプリケーションサービスの自動化
VIOPS07: アプリケーションサービスの自動化
 
VIOPS07: OSMと地理空間情報
VIOPS07: OSMと地理空間情報VIOPS07: OSMと地理空間情報
VIOPS07: OSMと地理空間情報
 
VIOPS07: CDNの困ったネタ
VIOPS07: CDNの困ったネタVIOPS07: CDNの困ったネタ
VIOPS07: CDNの困ったネタ
 

Dernier

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 

Dernier (8)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 

VIOPS06: Infiniband技術動向および導入事例

  • 1. VIOPS06 WORKSHOP Infiniband技術動向および導入事例 July 22nd, 2011 メラノックス テクノロジーズ ジャパン株式会社 日本地区担当ジェネラルマネージャ 津村英樹
  • 2. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 2 会社概要  HPC、金融、クラウド市場の要求を満たす最高性能 のITシステムを実現するソリューションプロバイダー • インフィニバンドと10G/40GbEtherのEnd-Endソリューションを 提供する高速ネットワーク市場のリーディングカンパニー • 2011年3月時点で、750万ポート以上を出荷  本社: • イスラエル ヨークナム, カリフォルニア州サニーベール • 675人の従業員; ワールドワイドのセールス&サポート  順調な業績推移、優良な財務状況 • 2010年度の記録的な売上; $154.6M • 2011年度第一四半期売上= $55.1M • 2011年度第二四半期見込~$61.5 – 62.0M Voltaire社との相互補完的な合併を完了 Recent Awards Ticker: MLNX
  • 3. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 3 インフィニバンド概要  物理層の仕様 • Infiniband Trade Associationで定義された標準規格 • 物理層は10Gbit EthernetやFibre Channelと同じIEEE802.3がベース • 現行の規格では一方向あたり信号帯域幅2.5Gbps(QDR)、3.5Gbps(FDR) • QDRまでは8B/10B、FDRからは64B/66Bの符号方式を採用 • 全二重通信のため双方向の合計帯域幅は2倍 • 複数の接続(レーン)の集束が可能(4x、12x) • Node-Node : 56Gbps (FDR 4x) • Switch-Switch : 168Gbps (FDR 12x) • 1μs以下のアプリケーション・レーテンシー  インフィニバンド固有の様々な特長  MPI(メッセージ・パッシング・インタフェース) • 高い伝送効率を実現するチャネルアーキテクチャ - PCIエクスプレスのロードストア・アーキテクチャはCPUが接続するI/Oデバイスと直接送受信 するため、遅いI/Oデバイスの使用時や接続数が多くなるとオーバーヘッドが大きくなる。 - チャネル・アーキテクチャではCPUは必要なデータをメモリに書き込んだらあとは別のタスク に移行できる。I/Oデバイスは自分の速度に合ったペースでメモリからデータを取得する。 - I/Oデバイスの数が増えてもオーバーヘッドは小さいため、大規模システムにも対応可能。 - メラノックス社のConnect-XシリーズHost Channel Adapter用コントローラ チップが提供する 様々なオフロード機能により、さらに高効率、低レイテンシーな通信が実現できます。
  • 4. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 4 メラノックスが提供する効果的なオフロード機能  RDMA (Remote Direct Memory Access) • 独立したシステムのメインメモリ間、システムとストレージ間のデータ転 送を効率化するテクノロジ。メモリ間のデータ転送時にはホストCPUの 割り込みがほとんど発生しないため、ホストCPUの オーバーヘッド低 下に 加え、データ転送時のレイテンシ短縮にもつながる。 • 10Gbit Ethernetを利用する場合、システム構築や運用管理が InfiniBandよりも容易という利点を持つ。 Ethernet上でRDMA機能を実現するRDMA over EthernetもMellanox 社HCAではサポートしており、non-HPC市場での導入が進んでいる。  CPU Offload • TransportレイヤとNetworkレイヤをHCAのチップがハードウェアで処理 することにより、CPUの負荷を軽減できる。  カーネル・バイパス • InfiniBandで使用されるSDP(Sockets Direct Protocol)は、アプリケー ションとその下にあるハードウェアを透過的に接続する基本的なソケット メカニズムを提供する。これによりInfiniBandを併用しながら従来の TCP/IPソフトウェアモデルを使い続けられる。 • ハードウェアがInfiniBandの場合には、複雑なトランスポート処理を InfiniBand HCA(Host Channel Adapter)がOSカーネルで直接行える ようになる。これにより、ソフトウェアからはTCP/IPに見せながら、設定 の変更は殆ど無しにInfiniBandの利点を享受できる。(IP over IB)
  • 5. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 5 Host/Fabric Software 最先端のE2Eソリューションを実現するラインナップ Virtual Protocol Interconnect Storage Front / Back-EndServer / Compute Switch / Gateway 56G IB & FCoIB 56G InfiniBand 10/40GigE & FCoE 10/40GigE Industries Only End-to-End InfiniBand and Ethernet Portfolio ICs Switches/GatewaysAdapter Cards Cables Fibre Channel Virtual Protocol Interconnect
  • 6. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 6 メラノックスInfiniBand製品群の特長  最高のスループット • node to nodeの転送レートがQDRで40Gb/s、FDRで56Gb/s • QDRで約90M MPI messages / 秒 • ゼロ・コピーでSend/receiveおよびRDMA operationsを実行  低レイテンシー • 1-1.3usec MPI end-to-end • 0.7-1us InfiniBand latency for RDMA operations • Lowest latency switch fabric – up to 45% lower vs other solutions  最小のCPUオーバーヘッド • フル・トランスポート・オフロードにより、ユーザ・アプリケーション に対するCPUの稼働率を最大化
  • 7. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 7 Mellanox in the TOP500 - (June 2011)  Mellanox InfiniBand builds the most powerful clusters • Connects 5 out of the TOP10, 61 systems in TOP100, 115 in TOP200, 147 in TOP300  InfiniBand represents 42% of the TOP500  Mellanox InfiniBand enables the highest utilization on the TOP500 • Up to 96% system utilization  Mellanox InfiniBand enables the most energy efficiency Petascale system  Mellanox 10GbE is the highest ranked 10GbE system (#124)
  • 8. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 8 Paving The Road to Exascale Computing  Mellanox InfiniBand is the interconnect of choice for PetaScale computing • Accelerating 50% of the sustained PetaScale systems (5 systems out of 10) Dawning (China) TSUBAME (Japan) NASA (USA) >11K nodes CEA (France)LANL (USA)
  • 9. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 9 9 of Top 10 Automotive Manufacturers 5 of Top 10 Pharmaceutical Companies 7 of Top 10 Oil and Gas Companies 6 of Top 10 Global Banks 30%+ of Fortune-100 & top global-High Performance Computers 様々な業界の代表企業への導入実績
  • 10. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 10 コレクティブ・オフロード  MPI Collective Operations • コレクティブ通信は初期の入力データを送信するためのブロードキャストや複数の発信源のデータを統 合するリダクション(Reduction)、全体的な同期化のためのバリア(Barrier) のようなオペレーションのた めにアプリケーションによって頻繁に使用されており、工学・科学アプリケーションの拡張性にきわめ て大きな影響を与えます。 • コレクティブ通信はシステム内の全てのプロセス/ノードを連結させるために全体的な通信操作を行いま す。従ってできるだけ効率よく、またできるだけ早く実行されなければなりません。コレクティブ通信 の現在の実装では拡張性が無くシステムノイズに苦しみ、CPU処理 時間の多くを消費してしまいます。  メラノックス社のコレクティブ・オフロード機能 • Mellanox ConnectX®-2 アダプタと InfiniScale® IV スイッチは、それらアダプタやスイッチへコレクティ ブ通信をオフロードすることによってこの通信の拡張性の問題に対応します。 • Mellanox のアダプタとスイッチは通信パターンをオフロードし、ノンブロッキングのコレクティブオペ レーションとアプリケーション計算のオーバーラップを許容することによく適しております。通信の処 理をこのHCA にオフロードすることは、システムノイズの影響を最小限に抑え、通信と計算のオーバー ラップを飛躍的に増加するための機能を提供します。
  • 11. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 11 Collective Algorithms (Recursive Doubling) 1 2 3 4 1 2 3 4 1 2 3 4 5 6 7 8 5 6 7 8 5 6 7 8 1 2 3 4 5 6 7 8 OSノイズ • メッセージをランク2から取得 するまでポーリング状態 • メッセージをランク3に送信 1 1 1 3 5 73  システムノイズの軽減 • CPU は計算と通信の両方のタスクを実行する必要があり、一般的にはそれらのタスクを順次実行します。 コレクティブオペレーションは CPU のランタイムに深刻なオーバーヘッドを与え、それによって OS ノイズは CPU タス クの全体の実行時間に対して追加の遅延を発生させます。 • MPI オペレーションによるアプリケーション性能への OS ノイズの影響を以下に図解します。この例では、ランク1(また はノード1)上の OS ノイズがランク2から期待されるメッセージの到着を遅らせます。この遅延はランク1の実行時間を 増加させるだけでなく間接的に影響を与えるランク3,5,7の実行時間も増加させます。それによってアプリケーショ ン全体の実行時間に影響を与え、システム全体の性能を务化させます。  メラノックス社のコレクティブ・オフロード機能 • コレクティブ通信のオペレーションをHCA にオフロードすることはそのCPUの通信管理の負荷を軽減させ、コレクティブ 通信と計算のオーバーラッピング/並列処理の増加を促進します。このオーバーラップにおける更なる利点は CPU の代わ りにその HCA に計算の一部を実行させることによって実現されます。ConnectX-2 はMPI_Reduce とMPI_Allreduceコレク ティブオペレーションのデータ操作部分をHCA にオフロードすることを可能にした浮動小数点演算ユニットを含んでいま す。
  • 12. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 12  LS-DYNAは、複雑な実世界での問題をシミュレーションできる構造解析 、流体解析用の汎用シミュレーション・ソフトウェアです。 • LS-DYNA は自動車や飛行機などの製造業における様々なシミュレーションで使用されて います。  導入効果: FCAはLS-DYNAの性能を約20%向上することに成功 • 16ノード, 192コア • アプリケーション性能はクラスタサイズが大きくなるほど向上する 採用事例: LS-DYNA (自動車衝突シミュレーション) *Acknowledgment: HPC Advisory Council for providing the performance results Higher is better
  • 13. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 13 GPU Direct の概要  Mellanox InfiniBandとNVIDIA GPUの最適な組合せ • InfiniBandとGPU間のメモリコピーのステップを削減、GPU-to-GPU の通信時間を 30 % 短縮 No GPUDirect 1. GPU が GPU 専用のホストメモリにデータをライトする。 2. ホスト CPU はそのデータを GPU 専用のホストメモリから インフィニバンドデバイスが RDMA 通信で利用できるホスト メモリへコピーする。 3. インフィニバンドデバイスはそのデータをリードし、リモート ノードへデータを転送する。 GPUDirect NVIDIA GPU Direct は NVIDIA GPU と Mellanox インフィニ バンドアダプタの間で新しいインタフェースを提供し、双方のデ バイスで同じシステムメモリを共有することを可能にします。 1. GPU が GPU 専用のホストメモリにデータをライトする。 2. インフィニバンドデバイスはそのデータをリードし、リモート ノードへデータを転送する。
  • 14. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 14 性能向上例1 - Amber  Amber : 分子動力学法向けに開発されたソフトウェアパッケージ • 二分子反応に関して最も広く利用されているプログラムの一つ • 広範なユーザーベース • 原子の動きを計算する分子動力学シミュレーション  ベンチマーク内容 • FactorIX - 90,906原子から構成される血液凝固第Ⅸ因子のシミュレーション • Cellulose - 408,609原子から構成されるセルロース繊維のシミュレーション • PMEMD(粒子メッシュエーヴァルト分子動力学)シミュレーションプログラムを使用  ベンチマーク システム – 8ノード PCクラスタ • Mellanox ConnectX-2 HCA と InfiniBand スイッチ • 各ノードはNVIDIA Fermi C2050 GPUを一つ搭載 FactorIX Cellulose
  • 15. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 15 Amber Performance with GPUDirect  GPUDirect によって33%の性能向上  クラスタサイズの増加に応じてさらに性能向上
  • 16. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 16 データセンタ内IT基盤のボトルネックの推移  強力な物理サーバのスペックをア プリケーションが使用しきれず CPUとMemoryはアイドル状態  電力、性能、投資の無駄 80Gb/s 80Gb/s 2 x Quad Core CPUs $2800, 240W 8GB Memory $600, 96W Wasted Wasted  InfiniBandで統合化されたI/O  ケーブリング、複雑性の解消  消費電力やコストの大幅な削減  低価格&高性能なマルチプロトコル 仮想環境向Converged Network 10-40Gb/s, 1µs, $900, 10W 80Gb/s 80Gb/s 40Gb /s  サーバ仮想化により、複数の 仮想サーバがCPUやメモリを 共有することで効率化  I/Oがボトルネックに配線など、 I/O接続機器と複雑性の増加 =インターコネクト投資増加 12Gb/s, 50µs, $2400, 28W80Gb/s 80Gb/s 16GB Memory $1200, 192W 1GigE, 50µs, $100, 4W 過去 現在 今後
  • 17. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 17 インフィニバンド導入事例
  • 18. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 18 IO統合によるROI(サーバ40台のケース)
  • 19. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 19 Mellanox BridgeX によるIO統合イメージ … BridgeX System Network Attached Storage or iSCSI SAN LAN and WAN InfiniBand 10/20/40Gb/s Unified I/O Virtualized Ethernet and FC Ports (IOEV) Ethernet/IP Fibre Channel SAN NPIV ports InfiniBand Switch (QDR) Virtual NICs and HBAs Fibre Channel
  • 20. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 20  シームレスにインフィニバンドを導入できる簡易型ソリューション • バーチャルマシンモニタ(VMM)がダイナミックにソフトウェアをエミュレーションするこ とにより、HCAなどのハードウェアリソースを複数の仮想マシンが共有できる機能 - Mellanox Para-Virtualization DriverがVMごとにVNICを設定しHypervisorのvSwitchと連携、vNICとその 先にあるVMのMACアドレスのみ学習、それ以外のアドレス管理はBridge-Xの外側に接続される Ethernet Switchが管理。Ethernetの代替ネットワークとして簡単・低価格にIO統合を実現 Para-Virtualizationとは? VMM VM 1 VM 2 VM n …Virtual Driver Virtual Driver Virtual Driver HW PF1 PF2 PF n L2 Virtual Switch HW HW
  • 21. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 21 SR-IOVとは?  PF とVFを組み合せることで、一つのIOデバイスを各仮想マシンに 対して 複数の独立した物理デバイスのように利用できる環境を実現  VMMのオーバーヘッドを解消し、低いCPU利用率でIOの高速化を 実現できるため、仮想マシンの統合率をさらに向上 vSwitchを介さずに物理IOデバイスのVFが直接 各仮想マシンにアロケーションされることにより、 インフィニバンドの40Gbpsのバンド幅と1μsの 低レイテンシーをフルに活用することが可能に! Virtual Functions VMM VM 1 VM 2 VM n …Physical Driver Physical Driver Physical Driver Hardware VF1 VF2 VF n Layer 2 Classifier Two new function types that I/O adapters must support PFs: Physical Functions: Full PCIe functions that include the SR-IOV Extended Capability VFs: Virtual Functions: Lightweight’ PCIe functions that contain the resources necessary for data movement but have a carefully minimized set of configuration resources
  • 22. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 22 Case Study: Travel/Transportation Managed hosting server provisioning time down from 216 hours to 12 hours improving SLA Lower Cap Ex, Op Ex through I/O consolidation Web 2.0
  • 23. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 23  Hadoop Direct  ソフトウェアプラグインとなる Mellanox Hadoop-Direct は、Hadoop ネットワークを加速し、アプリケーションに注力するデータ解析 用の Hadoop クラスタの拡張性を改善します。効率の良い Merge-sort アルゴリズムとこの RDMA を使用した斬新なデータ移動のプロ トコルは、Mellanox の Infiniband と 10GigE RoCE ( RDMA over Converged Ethernet ) アダプタカードを搭載した Hadoop クラスタに 対して、Hadoop フレームワークを加速させ、サーバー間で効果的にデータを移動させることを可能にします。これは優れたロスレス ファブリックを実現する Infiniband と RoCE を活用し、クラスタ観点から Hadoop の帯域と演算の問題に取り組んだ初めてのネットワ ークキングソリューションとなります。Hadoop-Direct は Hadoop ユーザーに対して透過的であり、現在のアプリケーションを変更す ることなくそのまま実行することができます。  Hadoop-Direct はデータ処理のスループットを2倍以上に向上させ、また全体のジョブ実行時間を Hadoop ノードごとに半分に減尐させ ます。より短いジョブ実行時間によるノードあたりの CPU 効率の改善によって、クラスタはより尐ないサーバー数で要求された性能 を満たすことができ、その結果データセンターの消費電力を直接的に削減しデータセンターの環境への取り組みに貢献いたします。 その他のインフィニバンド使用例 (Hadoop Direct)
  • 24. © 2011 MELLANOX TECHNOLOGIES - MELLANOX CONFIDENTIAL - 24 まとめ  インフィニバンドは最高速ネットワーク • 56Gbpsの転送レート+1μs以下の低レイテンシー • RDMA、Transport Off-load、Kernel BypassなどによるCPU負荷の劇的な軽減 • 様々なオフロード機能:Core Direct/FCA、GPU Direct、Hadoop Direct  HPC向けだけでは無い、幅広い規格 • ノード間 : IPC/MPI、RDS、SDP、IPoIB、EoIB、RoCE • ファイルアクセス : SRP、iSER、Luster、FCoIB、FCoE • 仮想化対応 : SR-IOV、Para-Virtualization、vmDirectPathIO  拡大する利用用途 • HPC: 大規模科学計算の分野から構造解析、画像処理など小規模クラスタへ • 用途: DBクラスタ、Hadoop、GemFire、IN-bound/Out-bound Storage System • 市場: 金融、クラウドコンピューティング、Web2.0、グラフィック