5. 分散ファイルシステムの種類
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved 5
分類
概要
例
分散ファイルシステム
複数のホストがコンピュータネットワークを経由して
共有しつつファイルにアクセスすることを可能にする。
複数のサーバ上に配置されたファイルを、論理的に
構造化された 1つ以上の名前空間で透過的にアク
セスできる。
Amazon S3
Andrew File System
(AFS) etc.
分散フォールト
トレラント
ファイルシステム
データを複製する事により、分散ファイルシステムを
構成する要素に障害が発生しても、データ喪失する
事なくアクセスが継続できる。
Microsoft DFS
Moose FS, etc.
分散並列
ファイルシステム
データを細かく分割し、分散ファイルシステム上の各
ホストに分散配置する事により、性能をスケールア
ウトできる。
FraunhoferFS
(FhGFS)
PVFS/OrangeFS
etc.
分散並列フォールト
トレラント
ファイルシステム
上記全ての機能を備えたファイルシステム
Ceph
GlusterFS
XtreemFS etc.
6. 調べてみました
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved 6
製品名 開発主体 ライセンス
Amage クリエーションライン株式会社 プロプライエタリ
Ceph Inktank LGPL2
Chiron FS luisfurquim@gmail.com GPL3
Cloudian クラウディアン株式会社 プロプライエタリ
CloudStore/Kosmosfs/Quantcastfs Quantcast Apache License 2.0
Cosmos Microsoft internal 非公開
dCache DESY and others プロプライエタリ
FraunhoferFS (FhGFS) Competence Center for High Performance Computing FhGFS license
FS-Manager CDNetworks プロプライエタリ
General Parallel File System(GPFS) IBM プロプライエタリ
Gfarm file system 筑波大学/産業技術総合研究所 BSD
GlusterFS Gluster, a company acquired by Red Hat GPL3
Google File System(GFS) Google 非公開
Hadoop Distributed File System ASF, Cloudera, Pivot, Hortonworks, WANdisco, Intel Apache License 2.0
IBRIX Fusion IBRIX プロプライエタリ
LeoFS 楽天技術研究所 Apache License 2.0
Lustre
originally developed byCluster File System and currently supported
by Intel(formerly Whamcloud)
GPL
MogileFS Danga Interactive GPL
12. CephFS (Posix file system)
kernel
Device driver
vfs
FUSE
File system
ブロック
デバイス
User space
Kernel space
Ceph-fuse
Client
Application
MDS
Monitors
OSDs
vfs
ブロックデバ
イスドライバ
vfs
User space
Kernel space
Ceph-kernel
Client
Application
RADOS
*CephFSは、現時点(V.0.80)で本番稼働での使用は推奨されていない。
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
12
CephFS Kernel client
CephFS FUSE client
13. 物理サーバ
QEMU/KVM
Ceph RBD(ブロックデバイス)
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved 13
RBD
(RADOS Block Device)
Kernel
Client
librbd
VM
Linux
Kernel
Client
物理サーバ
Hypervisor
VM
物理サーバ
Linux
アプリケー
ション
アプリケー
ション
アプリケー
ション
Linuxページ
キャッシュを使用
ユーザースペース
モジュール
RBD Cacheを使用
Linuxのみサポート
カーネルスペース
モジュール
Hypervisorの種類は
問わない
VM OSの種類は
問わない
Hypervisorの種類は
QEMU/KVMのみ
14. Ceph RADOSGW (Object Gateway)
librgw
File system
ブロック
デバイス
Monitors
OSDs
vfs
ブロックデバ
イスドライバ
S3 API
librados
Application
RADOS
*RADOSGWは、マルチサイト非同期レプリケーションをサポート
httpd
SWIFT API
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
14
19. OpenStack+Cephのメリット
l OpenStack 全体の可⽤用性の向上
l MySQL のデータさえダンプ取得すれば、 リストア可能
l OS イメージ・スナップショットは Ceph 上にあ
るのでバックアップ不要
l Compute ノード上のインスタンスデータは Ceph
のスナップショットから復旧
l Network ノードは分散・冗⻑⾧長可能、データのバッ
クアップは不要
l 最⼩小構成(3ノード)から始めて、スケールアウ
ト可能
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved 19
20. Cephのユースケース
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved 20
Virtualization and Private
Cloud
(traditional SAN/NAS)
High Performance
(traditional SAN)
PerformanceCapacity
NAS & Object
Content Store
(traditional NAS)
Cloud
Applications
Traditional IT
XaaS Compute Cloud
Open Source Block
XaaS Content Store
Open Source NAS/Object
Ceph
Target
Ceph Target
24. Cephロードマップ (as of 4/30)
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved 24
1.2 2.0
CEPH
CALAMARI
PLUGINS
May 2014 Q4 2014 2015
25. ベンチマーク⽬目的
l 想定ユースケース
l 共有ファイルサーバ/VMイメージストア
l CephFS/RBDでの各ドライバでの基本性能を検
証、Object Storageは実施しなかった
l ⽐比較のために、ローカルHDDとNFSも検証した
l 限られたHW環境のため、スケールアウトの検証
は⾏行行っていない
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
25
36. まとめ
1. CephFS Kernelドライバはまだ本番環境には使えない
2. CephFS FUSEドライバは、作成ファイル数が増えるとコン
テキストスイッチが急激に増加する
3. CephRBDは検証環境では普通にNFS(1台)並みの性能
1. 1G etherを使い切っている
2. NW/キャッシングのチューニングでさらに向上が⾒見見込まれる
4. CephRBD_QEMUドライバは、ランダムRWではkernelドラ
イバより良い結果となった
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
36
37. 参考情報
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
37
http://www.mellanox.com/related-docs/whitepapers/
WP_Deploying_Ceph_over_High_Performance_Networks.pdf
38. 参考情報
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
38
2,419MB/sec (8M Seq. READ)
110k IOPS (4k Seq. READ)
39. ⽇日本Cephユーザー会
l https://groups.google.com/forum/#!forum/ceph-jp
l July Tech Festa 2014
l http://2014.techfesta.jp/
l 会場: 産業技術⼤大学院⼤大学 東京都品川区東⼤大井1-10-40
l ⽇日程: 2014年6⽉月22⽇日(⽇日) 10:00-
l タイトル:オープンソース次世代分散ストレージ「Ceph」解説
l 内容:
l 「Ceph」はLinuxカーネル2.6.34で標準実装されたファイルシステ
ムで、複数のストレージシステムに対して、データを分散管理する
仕組みを実現しています。
l オブジェクトストア、ブロックストア、POSIX準拠の分散ファイ
ルシステムで構成され、⾼高い拡張性、⾃自動拡張、⾃自⼰己修復などが特
徴です。OpenStackにもブロックストレージのプラグイン
「Cinder」からも利⽤用可能です。今回はこの「Ceph」の概要から
優れた特徴について解説します。
14/06/02
Copyright 2014(C) OSS Laboratories Inc. All Rights Reserved
39