Openstackを200%活用するSDSの挑戦

OpenStackを200%活用する
SDSの挑戦
株式会社サイバーエージェント
技術本部
平野智洋

1.自己紹介
2.Privateクラウド環境の紹介
3.インテルじゃダメなんですか？
4.ストレージはインテル？
5.これからのPrivateクラウド

平野智洋
株式会社サイバーエージェント
技術本部
Private Cloud Team
•ハードウェア＆ストレージエンジニア
•プライベートクラウドに導入する
サーバハードウェア、ストレージの
選定・検証・運用
•SDSの設計・検証・構築・運用
•その他小さいシステムの設計・構築
• 監視カメラ・ラック解錠システム・テープバックアップ
写真はAMD ROMEを使用したSDSクラスタ検証の様子→

Privateクラウド環境の紹介

Privateクラウドの紹介
DC間Network・VPN
Transit
IX
エンドユーザ
リソースコントローラミドルウェア
CDN
サービス

Transit
IX
CDN
リソースコントローラ
Private Cloud Team は
ここまでを管理
DC間Network・VPN

Transit
IX
リソースコントローラ
■ Development Team
■ Network Team
■ Hardware & Storage Team
■ 運用 Team
■ OPT Team
全Team総勢19人
CDN
DC間Network・VPN

Privateクラウドの変遷
- OpenStack
Diablo
- 1Gbps x2
- 1Node 8 Core
- 300GB x4
実効600GB
- 3,000 vCPUs
2011 2013 2015 2018
- Clover
(自社内製)
- 1Gbps x1
- 1Node 12 Core
- 600GB x4
実効1.2TB
- 70,000 vCPUs
- OpenStack
Kilo
- 10Gbps x2
- 1Node 20 Core
- 1.2TB x 4
実効2.4TB
- 25,000 vCPUs
- OpenStack
Queens
- 25Gbps x2
- 1Node 40 Core
- Diskless
+ Cinder
- 20,000 vCPUs+
物理環境からの移行先新規サービスの受入れ環境
Cloverからの移行先
あと２倍くらい拡張

なぜディスクレスなの？
Instance Type VCPUs RAM(MB) Disk(GB)
m1.tiny 1 2,662 21
m1.small 2 5,324 42
m1.medium 4 10,752 85
m1.large 8 21,504 170
m1.xlarge 12 32,256 256
m1.2xlarge 16 43,008 341
m1.3xlarge 24 64,512 512
プランごとに
CPU・メモリ・ディスク
それぞれが強制的に決め打ち
CPUだけ使いたいユーザ
DISKだけ大量にほしいユーザ
メモリを大量に使いたいユーザ
ミスマッチにより、
リソースが割り当てられても
使われないケースが多発

ディスクレスCompute Nodeの利点
・DISKリソースの有効利用
前述の通り、無駄にストレージを買わずに済む
・Compute Nodeが安くなる
SSD/HDDを搭載しないから、コストが抑えられる
・故障からの解放
小規模のたくさんのアレイをチマチマとメンテナンスするより、
ガッチリ冗長の大規模アレイを運用したほうが楽
・かんたん構築
PXE Boot → ライブOS稼働だから、設置したらすぐに稼働可能。
・仮想サーバの高速マイグレーション
デタッチしてアタッチするだけの動きなので、データ移行とかは発生しない
・Compute Nodeが死んでもデータは死なない
Compute Nodeの外に保存してるから
「ディスクがー！」
「バッテリーがー！！」
「Firmwareガー！！！」
「保守切れがー！！」

・ストレージの停止＝全サービス即死
集中共有ストレージが停止すると、すべてのサービスが即死することになる。
ストレージ障害による影響を抑えるための対策：
→ AZ(ラック架列)を3系統に分けてデザインすることで、DC設備の電源系統を分離
→ さらにAZ内で独立した複数の系統を構築
→ さらにさらに、アレイはラックレベルの冗長性を確保
・ネットワークトラフィックが増える
ユーザが利用するDISK IOのほか、アレイ内で冗長をとるためのIOもNWを通るので、
2-3倍くらいトラフィックが増えることになる。
トラフィック増加への対策：
→ 10Gで足りなければ25G x2 = 50Gにするだけ。お値段はそんなに変わらない。
ディスクレスCompute Nodeの欠点

Privateクラウドの中身
NOVA Compute Node
Virtual
Machine
VDA
VDB
Virtual
Machine
VDA
mpathA
mpathB
mpathC
Cinder-Boot
Cinder-Standard
Volume Volume Volume
OSをBootする用のCinder
そんなに速くない
大量のVolumeを
扱える設計
高速なCinder
とっても速い
オールNVMe
2冗長 HA構成
VDB
mpathD
Cinder-Ceph
上記２つの中間
そこそこ速い
多数のVolumeを
扱える

Privateクラウドの中身
NOVA Compute Node
L2 Network
20,000 vCPUs
200TB
200TB
300TB
Cinder-Boot
Cinder-Standard
Cinder-Archive
Cinder-Boot
Cinder-Standard
Cinder-Ceph
Cinder-Archive
Cinder-Ceph
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
NOVA Compute Node
Global
Network
120TB
(OpenStack Queens)

インテルじゃ
ダメなんですか？

電力会社に支払われる電気代は、どこでも同じ。
ラックの月額費用も、だいたい同じ。
ならば、できるだけ多くのリソースを、
高密度で搭載した方が、コスト的に有利。
このスペースに、何GHz詰め込めるかが、そのまま
運用コストの圧縮効果に直結する。
何ソケットはいる？何ノードいれるの？
というパズルゲーム。
AMDを選ぶ理由
←１ラック（高さ220cm、幅70cm、奥行120cm）
------横幅70cm------
------高さ220cm------

AMDを選ぶ理由
実際のラック全景
←Compute Node
← Compute Node
← AMD/Supermicro Ceph Storage
← Compute Node
← Compute Node
← Compute Node
← Compute Node
← Compute Node
← NVMe Storage
← NVMe Storage
← Compute Node
← Archive Storage
2Uで裏側から4Node差し込むタイプ
DISKがないのでスカスカで通気が良いです
← 100G Switch (裏側)
← Mng Switch (裏側)
←(Compute Node 予定)
←(AMD/Supermicro Ceph Storage 予定)
← ケーブルを束ねるスペース (裏側)
← ケーブルを束ねるスペース (裏側)
← パッチパネル (裏側)
■ Compute Node 36台
■ NVMe 3.2TB x 44本
■ HDD 10TB x 12本
■ アプライアンス 1台
あわせて実効15KVAくらい
←Appliance Storage
Supermicro NVMe 搭載 Cephストレージ
200V PDU x2→
（30A 2系統）
200V PDU x2→
（30A 2系統）
200V PDU x2→
（30A 2系統）
200V PDU x2→
（30A 2系統）
電源定格
24,000W

大事なパラメータは、
■ １GHzあたりの消費電力
AMDなら、7nmなので消費電力で有利
■ １GHzあたりの単価
AMDなら、他社より安い設定
AMDを選ぶ理由
------横幅70cm------
------高さ220cm------

次回導入するCompute Nodeは、
Supermicro BigTwin (2U4Node)
AMD EPYC ROME 7352 (24Core) Dual Socket
10シャーシ、40ノードをチョイス
AMDを選ぶ理由

Intel Xeon：
1,760 vCPUs, 6.4THz
AMD EPYC ROME：
3,840 vCPU, 8.83THz
同等の消費電力で、
大幅な高密度化が可能！！Xeon：20core x 2socket x 2thread x 2GHz x 2U4Node x 10chassis = 6.40THz
EPYC： 24core x 2socket x 2thread x 2.3GHz x 2U4Node x 10chassis = 8.83THz
AMDを選ぶ理由
------横幅70cm------
------高さ220cm------

AMDを選ぶ理由
Xeon → EPYC Romeで
1コアあたりの性能がどう変わるか、
気になりませんか？

Compute Node 性能試験結果グラフ
試験方法：物理サーバに8CoreのKVM仮想サーバを立てて、仮想サーバ内でUnixBenchを実行。
公平を保つため、qemu-kvmのCPU Profileはkvm64で設定。KernelはCentOS7 3.10.0-957
AMDを選ぶ理由

ストレージは
インテルで良いでしょ？

新しいCinderストレージにcephを採用！
Cephは、最近あたらしいosdストレージ
“BlueStore” に対応。
Google生まれFacebook育ちの
Key Value Store “Rocks DB” を経由した
ブロックデバイスへの直接IOで、
従来ボトルネックとなっていた
File Systemの足かせが無くなり、
Write性能が超改善！
×
×
ストレージにAMDを選ぶ理由

Cephは、最近あたらしいosdストレージ
“BlueStore” に対応。×
×

■ オールNVMe構成
SATAは不安定なのでダメ
今は価格差もないのでNVMeを選択
■EPYCの豊富なPCIレーンをフル活用
128 PCIレーン、ロスレスでたくさんの
NVMeが使える。
XeonはPCIレーンが足りないので論外
■ EPYC ROMEはPCIe Gen4対応
Gen4デバイスを選択すればデータ効率が◎
×
×

Xeonは論外ですが、
Naples(旧 EPYC 7001)→Rome(新 EPYC 7002)で
どう変わるか、
気になりませんか？

×
×
ROME vs NAPLES
ROME OSD Server
ROME OSD Server 3台
NAPLES OSD Server 3台
ROME OSD Server
ROME OSD Server
ROME OSD Server
ROME OSD Server
ROME OSD Server
ROME OSD Server
ROME OSD Server
ROME OSD Server
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
Naples OSD Server
Naples OSD Server
Naples OSD Server
Naples OSD Server
Naples OSD Server
Naples OSD Server
Naples OSD Server
Naples OSD Server
Naples OSD Server
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe
NVMe

これからのPrivateクラウド

Keyword：NVMe over Fablic
さようならiSCSI…

回転する円盤用の
インターフェイスは、もうおしまい。
NVMeだけでなく、あらゆるBlock Storageが
NVMe over TCPで接続できるようになりました。

ココ
ココの

NOVA Compute Node
Virtual
Machine
VDA
VDB
Virtual
Machine
VDA
VDB
disk
disk
disk
disk
Cinder-Hyper (Active)
Cinder-Hyper (Backup)
NVMe over Fablic NVMe Cluster
【試験環境】
1クラスタ
38TB
HA構成
140万IOPS
（4k randwrite）
とんでもねぇ性能

24本のNVMeを、600Gbpsの
NVMe over RDMA / NVMe over TCP で
提供する、EBOFマシン

24本のNVMeを、400Gbpsの
NVMe over RDMAで
提供する、EBOFマシン

■ AMD EPYC ROME
■ NVMe over Fablic
■ NVMe over TCP

ご静聴ありがとうございました

Openstackを200%活用するSDSの挑戦

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Openstackを200%活用するSDSの挑戦

Similar to Openstackを200%活用するSDSの挑戦 (20)

Openstackを200%活用するSDSの挑戦