SlideShare une entreprise Scribd logo
1  sur  11
Copyright 2013 FUJITSU LABORATORIES LIMITED
大規模システムの運用管理
~HPCでの経験を踏まえて~
2013.7.19
(株)富士通研究所
中島 耕太
※本資料における会社名及び製品名は、各社の登録商標または商標です。
Copyright 2013 FUJITSU LABORATORIES LIMITED
 HPCシステムに関する研究開発に従事
InfiniBandネットワーク管理機構を開発
IAサーバクラスタシステムが対象
 クラウド向けInfiniBand利用にも興味
自己紹介
数1,000台のサーバをInfiniBandで接続
 大規模システムでのジョブ(アプリ)管理
 大規模InfiniBandネットワークの管理
 大規模システムのインストール
1
ジョブ(アプリ)管理
 大規模クラスタシステム
全体を一つとして使うのは稀: ベンチマーク時くらい
部分を切り出してジョブに割り当てて使用
 HPCシステムでのジョブ管理
ジョブ:複数サーバを同時に利用して走行
基本はバッチ処理
 レストランの座席配置問題
少人数のお客さんを先に通してしまうと団体客をい
つまでも入れられない
Copyright 2013 FUJITSU LABORATORIES LIMITED2
ジョブスケジューラ
 リソースの量と使用時間を管理
 大きなジョブの投入可能
 柔軟に順序の入れ替えを実施
Copyright 2013 FUJITSU LABORATORIES LIMITED
時間
リソース
(ノード数)
上限
1
2
4
5
3 6
7
空きリソースを効率よく利用可能
使用時間
使用ノード数 ※ 数字は投入順(実行優先度)
3
ジョブスケジューラの効果
Copyright 2013 FUJITSU LABORATORIES LIMITED
(出展: 宇治橋他、計算センタ高稼働率とジョブ待機時間短縮を実現するジョブスケジューラ, 情報処理学会第72回全国大会, 2010)
待ちジョブ数を大幅に削減
 理化学研究所様での事例に基づく検証
4
InfiniBandのネットワーク管理
 集中制御のアプローチ: OpenFlowに近い
リンクアップ/ダウンを通知
SMがこれを制御
Copyright 2013 FUJITSU LABORATORIES LIMITED
IB-SW
Subnet
Manager
IB-SW
IB-SW
制御
(接続受け入れ)
制御
制御
Trap
Trap
Trap 新規接続
5
IBネットワーク運用
 最低限のツール群はそろっている
OpenSM, ibnetdiscover, ibtracert等
SMのログやツールを組み合わせれば管理可能
 簡単に管理するには工夫が必要
簡単管理ツールを自作
Mellanox/Intel製のファブリック管理ソフトを利用
Copyright 2013 FUJITSU LABORATORIES LIMITED
自力でSMを実装することも可能
(頑張れば)なんでもできる
6
大規模インストール
 1,000台のサーバにOSをインストール
一台ずつ手作業でインストール
 どうやって1,000台サーバに配るか?
Copyright 2010 FUJITSU LIMITED
OSイメージの配布ツールが必要
ボトルネック
7
バケツリレー方式
 イメージのブロックをバケツリレーで転送
MPI Bcastでも利用、大きなデータの配布に有利
 信頼性の担保に工夫(努力)
Copyright 2010 FUJITSU LIMITED
ギガビットイーサでも1GBを1分以内で配布
8
Copyright 2013 FUJITSU LABORATORIES LIMITED
 大規模システムでのジョブ(アプリ)管理
 バッチ処理の管理には実績あり
 データセンタでのバッチ処理管理には適用可
 完了時間が見積もれないものは制御しづらい
 InfiniBandネットワーク管理
 最小限のツールはある
 ツールを組み合わせてうまく管理する必要あり
 インストール
 1,000台規模になると信頼性も大きく低下
 性能と信頼性を両立させるには努力が必要
現状と課題
9
Copyright 2013 FUJITSU LABORATORIES LIMITED10

Contenu connexe

Plus de VIOPS Virtualized Infrastructure Operators group ARCHIVES

VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS Virtualized Infrastructure Operators group ARCHIVES
 
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS Virtualized Infrastructure Operators group ARCHIVES
 
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS Virtualized Infrastructure Operators group ARCHIVES
 

Plus de VIOPS Virtualized Infrastructure Operators group ARCHIVES (20)

VIOPS10: サーバーロードマップから考えるクラウドの次
VIOPS10: サーバーロードマップから考えるクラウドの次VIOPS10: サーバーロードマップから考えるクラウドの次
VIOPS10: サーバーロードマップから考えるクラウドの次
 
VIOPS10: DMM.comのインフラのこれから
VIOPS10: DMM.comのインフラのこれからVIOPS10: DMM.comのインフラのこれから
VIOPS10: DMM.comのインフラのこれから
 
VIOPS10: SSDの基本技術と最新動向
VIOPS10: SSDの基本技術と最新動向VIOPS10: SSDの基本技術と最新動向
VIOPS10: SSDの基本技術と最新動向
 
VIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコトVIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコト
 
VIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコトVIOPS10: クラウドのつぎに起こるコト
VIOPS10: クラウドのつぎに起こるコト
 
VIOPS10: いまパブリッククラウドで起きているコト
VIOPS10: いまパブリッククラウドで起きているコトVIOPS10: いまパブリッククラウドで起きているコト
VIOPS10: いまパブリッククラウドで起きているコト
 
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
VIOPS09: 本当に必要なのはSoftware- Defined Networking? ~今、改めて考えるデータセンタ・ネットワークの役割~
 
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところVIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
VIOPS09: Hadoop向けバッチアプリケーション開発フレームワーク Asakura Frameworkが目指すところ
 
VIOPS09: AWSで実現する クラウドと物理製品の融合
VIOPS09: AWSで実現する クラウドと物理製品の融合VIOPS09: AWSで実現する クラウドと物理製品の融合
VIOPS09: AWSで実現する クラウドと物理製品の融合
 
VIOPS09: クラウド時代におけるFusion-ioのポジショニング
VIOPS09: クラウド時代におけるFusion-ioのポジショニングVIOPS09: クラウド時代におけるFusion-ioのポジショニング
VIOPS09: クラウド時代におけるFusion-ioのポジショニング
 
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
VIOPS09: 圧倒的なコストパフォーマンスを実現するクラウドアーキテクチャの秘密
 
VIOPS09: その鐘を鳴らすのはあなた
VIOPS09: その鐘を鳴らすのはあなたVIOPS09: その鐘を鳴らすのはあなた
VIOPS09: その鐘を鳴らすのはあなた
 
VIOPS08: マイクロサーバー アーキテクチャトレンド
VIOPS08: マイクロサーバー アーキテクチャトレンドVIOPS08: マイクロサーバー アーキテクチャトレンド
VIOPS08: マイクロサーバー アーキテクチャトレンド
 
VIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for BigdataVIOPS08: Behavior Analysis Solution for Bigdata
VIOPS08: Behavior Analysis Solution for Bigdata
 
VIOPS08: ハードウェアオフロードの現在と今後
VIOPS08: ハードウェアオフロードの現在と今後VIOPS08: ハードウェアオフロードの現在と今後
VIOPS08: ハードウェアオフロードの現在と今後
 
VIOPS08: PaaSのメリットと課題
VIOPS08: PaaSのメリットと課題VIOPS08: PaaSのメリットと課題
VIOPS08: PaaSのメリットと課題
 
VIOPS07: “Practical” Guide to GlusterFS
VIOPS07: “Practical” Guide to GlusterFSVIOPS07: “Practical” Guide to GlusterFS
VIOPS07: “Practical” Guide to GlusterFS
 
VIOPS07: アプリケーションサービスの自動化
VIOPS07: アプリケーションサービスの自動化VIOPS07: アプリケーションサービスの自動化
VIOPS07: アプリケーションサービスの自動化
 
VIOPS07: OSMと地理空間情報
VIOPS07: OSMと地理空間情報VIOPS07: OSMと地理空間情報
VIOPS07: OSMと地理空間情報
 
VIOPS07: CDNの困ったネタ
VIOPS07: CDNの困ったネタVIOPS07: CDNの困ったネタ
VIOPS07: CDNの困ったネタ
 

Dernier

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 

Dernier (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 

VIOPS08: 大規模システムの運用管理 ~HPCでの経験を踏まえて~