Contenu connexe
Similaire à ceph acceleration and storage architecture (20)
ceph acceleration and storage architecture
- 2. 自己紹介
株式会社アルティマ
プロダクトセールス2部 SE 北島佑樹
経歴
これまでにアルティマFAE/SEとして複数ベンダを担当
(HW)SASコントローラーチップ(FW開発サポート)
(SW)デジカメ向け3Dソフト
(HW)IO仮想化
(HW)ARM高集積サーバ
いま
SE
担当:Mellanox, HGST, Midokura, 6WIND
担当分野
→クラウドインフラ(サーバ、ストレージ、ネットワーク)
2
- 4. スケールアウトストレージ システム概要
4
Client / Compute
iSCSI / FC
Storage Cluster
High Bandwidth
Front-end Back-end
専用HW(ブラックボックス)
システム設計はベンダ推奨があるものが主
Back-Endネットワークには広帯域なインターフェースがサポートされ
ているケースが多い (Ex : InfiniBand)
アプライアンス型
InfiniBand(56Gb)
Ethernet(40GE)
Black Box
- 6. スケールアウトストレージ システム概要 con't
6
Client / Compute
1/10GE
Commodity Server
for Storage node
High Bandwidth
10GE/40GE/IB
Front-end Back-end
汎用サーバ(X86,ARM)
システム設計はユーザ自身(自由度が高い)
→SWの理解と同時に、HWの理解も必要
Back-Endネットワークは必ずしも必要ではない (Ex : Hyper Converged System)
汎用サーバ型
User-Defined
- 7. ストレージまでの経路が遠くなる
= IOのオーバーヘッド(Latency)が大きくなる
= 性能(IOPS, Throughput)に影響
たまに聞く話し
All Flashにした
or サーバスペックを上げた
or 帯域を太くした
知っておきたいIOの流れ
7
APP
Network
APPLICATION CPU MEMORY ETHERNET / FC / IB SSD/ HDD
SERVER
APPAPP
APP
NETWORK
ADAPTER
NETWORK STORAGE
が、思ったより性能が改善しない
- 13. 数字で見るIO性能 2
ストレージデバイスとネットワークスイッチの相関
13
Component Latency(usec)
Mellanox 0.22
Broadcom(TridentII) 8
SSD Read 25
Disk Read 6000
SSD Read
76%
Other(TridentII)
24%
Mellanox
0.8%
SSD Read
99.2%
参考:http://www.mellanox.com/related-docs/products/Tolly-215111-Mellanox-SwitchX-2_Performance.pdf
ネットワークが占めるレイテンシー割合(vs ストレージデバイス)
フレームサイズごとのパケットロスの割合
※Jamboフレーム = MTU9000
ショートパケットでパケットロスが発生
64byteパケットで約20%
Mellanoxはゼロパケットロス
&低レイテンシー
- 15. RDMAによるIO高速化
RDMAとは?
利点
ゼロコピー
ネットワークレイヤ間のバッファコピーが発生しない
カーネルバイパス
コンテキストスイッチが発生しない
ロスレス
message based transaction
対応プロトコル
Ethernet(RoCE), InfiniBand(iSER, SRP), iWARP
15
RDMA (Remote DMA)は、CPUが関与することなくネットワーク越しにメモリへ
アクセスする(すなわち、リモートのRead/WriteをCPUを介さずにノード間で
処理できる)機能である。
参考:http://rdma.hatenablog.com/entry/2014/04/06/161737#fn1
- 18. 参考データ
Ceph RDMA vs withoutRDMA
18
RDMA
TCP
RDMA
TCP
RDMA
TCP
Over 60% Performance Improvement (4K 100% Read)
※Beta Driver as of 2015 Apr
K
※表中のデータはメラノックス社提供データ
- 19. HWの紹介 1
Mellanox社製 10/40GbE アダプタカード
19
型番 MCX311A-
XCCT
MCX312B-XCCT MCX313A-BCCT MCX314A-BCCT
ポート Single
10GbE
Dual
10GbE
Single
/10/40/56GbE
Dual
/10/40/56GbE
コネクタ SFP+ SFP+ QSFP QSFP
ケーブル ダイレクトアタッチカッパー、光ファイバ
ホストバス PCIe 3.0 x 8
特長 VXLAN/NVGRE オフロード, RDMA, SR-IOV,
各種オフロード(CheckSUM offload, TCP Segmentation offload, Stateless offload)
対応OS RHEL, SLES, Microsoft Windows Sever, FreeBSD, Ubuntu, VMWare ESXi
- 20. HWの紹介 2
Mellanox社製 10/40GbE L2/L3スイッチ
20
SX1710 (x86)/1036 (PPC)
The Ideal 40/56GbE ToR/Aggregation
SX1400 (x86)/1024 (PPC)
Non-blocking 10GbE 40/56GbE ToR
SX1012
Ideal storage/Database 10/40/56GbE Switch
Classic storage/DB switch
Low LATENCY
220ns
Low POWER
SX1710 – 92W
SX1024 – 75W
SX1012 – 50W
Zero Packet Loss
- 21. Ready for 25 / 50 / 100GbE !!
HWの紹介 3 (NEW)
21
Copper (Passive, Active) Optical Cables (VCSEL) Silicon Photonics
Entering the Era of 25, 50 and 100GbE
100GbE Adapter
(10 / 25 / 40 / 50 / 100GbE)
Multi Host Solution
32 100GbE Ports, 64 25/50GbE Ports
(10 / 25 / 40 / 50 / 100GbE)
Throughput of 6.4Tb/s
Erasure Coding offload対応
- 22. まとめ
SDS + 汎用サーバを組む際は、システム全体の最適化を
考慮する
HWのコモディティ化 != HWはなんでもいい
= 用途に応じて選定
CephにはXioMessenger(RDMA)がサポートされている
(まだExperimental Versionです) [version Hammer as of 2015 sep]
スケールアウトにはMellanoxのNIC, Switchがとても相性
がいい (宣伝…)
22