SlideShare a Scribd company logo
1 of 46
Download to read offline
Site Reliability Engineering (SRE)で
拡がる運⽤の世界
Googleでの展開から、エンタープライズへの夢は⾒れるか
2016/7/24
http://www.ossl.co.jp
TWITTER: http://twitter.com/satoruf
LINKEDIN: http://jp.linkedin.com/in/satorufunai/ja
SLIDESHARE: http://www.slideshare.net/sfunai
FACEBOOK: http://www.facebook.com/satoru.funai
Open
Programmable
Infrastructure
Environment
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 1
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 2
SREとは
l Site Reliability Engineering
l サイト信頼性⼯学?
l 信頼性⼯学とは、システム
の信頼性を分析する⼯学⼿
法である。
l https://ja.wikipedia.org/wiki/%E4%BF%
A1%E9%A0%BC%E6%80%A7%E5%
B7%A5%E5%AD%A6
l しかし、サイト信頼性⼯学
という学問はない
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 3
SREの求⼈
https://www.linkedin.com/jobs/search?keywords=Site%20Reliability%20Engineer&location=united%20st
ates&locationId=&trk=jobs_jserp_search_button_execute&searchOrigin=JSERP
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 4
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 5
今⽇の元ネタ
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 6
こちらも読んでないと、意味わからない
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 7
GoogleでのSREの定義
l “Fundamentally, it’s what happens when you ask a software engineer to design an
operations function.”
l https://landing.google.com/sre/interview/ben-treynor.html
l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre
l 「SRE とは、操作機能を作ってくれとソフトウェア エンジニアに頼んだときに起こる
ことだ」
l http://googlecloudplatform-japan.blogspot.jp/2016/07/sre-google-mission-
control.html?1468590211542=1&m=1
l Mr. Benjamin Treynor Sloss
l https://www.linkedin.com/in/benjamin-treynor-sloss-207120
l Terse variant: If Google ever stops working, it's my fault.
Verbose variant : I have been responsible for global operations, networking, and production engineering at
Google since 2003. As of 2016, I manage a team of approximately 4,000 software, hardware, and network
engineers across the globe.
Along the way,
* I coined the term "Site Reliability Engineering" for my team of (now) x,xxx software engineers engaged in
what were traditionally operations functions, and I have watched with some pride as the rest of the SaaS
industry has adopted the SRE name, mission, and practices.
* I built the networking team, from its initial scope of providing a pair of leased OC48s, to its current size --
publicly estimated to be one of the 3 largest networks in the world.
* Since 2010 I've also managed datacenter design, construction and operations, and servers. Public estimates
are that as of 2014 Google has built between 200MW and 680MW of highly-efficient datacenters worldwide.
* Finally, since late 2013 I've been engaged on Google's public cloud product, Google Cloud Platform
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 8
Keys to SRE Presentation by Ben Treynor @ SREcon14
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 9
SREの範囲
How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 10
Keys to SRE Presentation by Ben Treynor @ SREcon14
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 11
Google SWエンジニア新卒採⽤
必要な条件/経験
4 年制⼤学卒または関連職種での実務経験
プログラミング能⼒( 特に C++ , Java,
Python)
望ましい経験/スキル
修⼠号または博⼠号を取得していること
Unix / Linux または Windows 環境におけるソフ
トウェア開発や API の経験
ネットワーク プログラミングやソフトウェア シ
ステムの開発または設計の経験
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 12
新卒SWエンジニアが配属される組織
l プロダクト&システム デベロップメント:
l 検索品質を向上させる⾰新的な⽅法の発⾒、コンピューティング プラットフォームやネットワーキング技術
の構築、動画のインデックス登録の⾃動化、複雑なオークション システムの改善・拡⼤など、様々な課題に
対してソリューションを開発します。Google のプロダクトの拡⼤と品質向上を実現するためのソフトウェア
アプリケーションをリサーチ、企画、開発しながら、⼤量のデータや情報アクセスに関わる問題にチームで
取り組むことが求められます。関連する専⾨分野の例として、AJAX および同様の技術を使⽤したユーザー
インターフェース開発、セキュリティ、組み込みシステムとモバイルアプリ(Android および iOS)、デベ
ロッパー ツール(IDE、⼤規模なビルドシステム、コンパイラ)などが挙げられます。
l エンジニアリング プロダクティビティ:
l ソフトウェア設計スキル、分析⼒、プログラミング能⼒を駆使して⾰新的な⾃動テストシステムを構築しま
す。これは、単なるデバッグやテストの実施といった表⾯的な作業のみを指すわけではありません。テスト
チームは⽇々幅広い課題に取り組みながら、分散コンピューティング インフラストラクチャにおける多様な
シナリオに対応するため、インテリジェント システムの設計と構築を担当します。これまでは存在しなかっ
たものに対する⾃動テストシステムを設計、構築しようとするとき、参照できる教科書はありません。この
グループで業務にあたる⼈材として Google が優秀なエンジニアを求めているのはそのためです。
l サイト リライアビリティ:
l Google の製品開発プロセス全体に関与し、クラウドベース コンピューティングの最前線で業務にあたりま
す。この精鋭チームの⼀員として、トラフィック異常のコードレベルのトラブルシューティングから最新
サービスのメンテナンスまで、またモニタリングやアラートから新しい⾃動化インフラストラクチャの構築
まで、Google の運営を維持するあらゆる業務に対応します。このチームのエンジニアは、何千万という数の
ユーザー規模に⾒合う強靭かつ拡張可能なソフトウェアの作成に情熱を傾けています。⽇々新しく出会う
様々な事象に取り組み、ほぼすべてのエンジニアリング チームやオペレーション チームと連携して、すべて
の⼈がアクセスできるような Google ならではのサービスとアプリケーションを提供します。
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 13
GoogleでのSREとは
l 全世界に約2,000⼈(SW/NWエンジニア含めて4,000⼈)
l すべての製品/サイトにSREチームがあるわけではない
l 他のチームと共通採⽤、共通⼈材プール
l チーム間は対等(Dev. vs Ops.ではない)
l チーム間の移動は常に可能
l つまり、SREを増員すれば、開発チームはメンバーが減る
l Mission Controlプログラム:製品開発に携わるエンジニアに SREの仕事を体験させる 6 か⽉のローテーション
プログラム、実際に受けた⼈間の半分はSREのポジションを選択している
l SREの時間の50%以上は、開発プロジェクトに当てられなければならない
l 50%未満になる=運⽤/障害対応時間が50%以上になると、該当製品開発チームに負荷が割り振られる
l SREの開発プロジェクトは、⾃動化や監視ツールにとどまらず、サービスレベルの向上に役⽴つもの全て(ロー
ドバランサ、分散合意システム、分散スケジューリング、etc.)
l サービス運⽤負荷の5%は製品開発チームが負担する
l 運⽤/障害対応には、チケット処理、障害対応、オンコール(当番)が含まれる
l オンコールは、8-12時間交代、時間で25%以下(1週間/⽉)、オンコール中のイベントは2件程度
l オンコールは、プライマリーとセカンダリーの⼆⼈体制で、典型的チームは8⼈体制となる
l オンコールは、「新⼈の仕事ではない」。オンコールは、トレーニングとチェックリストにパスしないとできな
い。
l オンコール中のSREはサービス停⽌を含む、サービスに関する全権を委譲されている。
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 14
SRE as a custodian
“SREs are the custodian of production.
SREs are the custodian of customer
experience”
「SREとは、サービスとユーザー体験の
管理者であり守護者である」
How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 15
SLAとエラーバジェット
l SREチームと製品開発チーム間の契約
l エラーバジェット=100%-SLA(例:99.9%)=0.1%
l エラーバジェット(=SLA)は、製品開発チームが定める
l エラーバジェットを超えた場合は、製品開発チームに対応が割り
振られる
l SLAを厳しくすれば、SRE対応可能時間は短くなる
l 殆どのSRE対応は、新機能リリース時に発⽣する
l つまり、エラーバジェットを使い果たすと、新機能リリースは凍
結せざるをえない
l それを避けるためには、リリース前のレビューが重要
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 16
リリース前レビュー
l 必ずPRR:Production Readiness Reviewが、以下の観点でSREと
開発チームで⾏われる
l システムアーキテクチャー、他サービスとの依存性
l エマージェンシーレスポンス
l キャパシティプランニング
l 変更管理
l 計測:信頼性、応答性、リソース
l PPRの中で、SLA/SLO/SLIを合意し、製品設計に必要なフィード
バックを⾏い、トレーニングなどのスケジュールを決定する
l SREの中には、リリース専⾨部隊(LCE: Launch Coordination
Engineering)がある
l 製品開発チームと協⼒して、関連するチームを横断し⾼品質な製品リリースに
向けてコンサルテーションを⾏う
l Google検索から、Andoroidアプリまで全てのGoogle製品に関わる
l もし製品開発チームと合意できなければ、 SREは断れる2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 17
Launch Coordination Checklist例
l アーキテクチャー
l アーキテクチャー概要
l クライアントからのリクエスト(API)
l マシン/データセンター
l 使⽤リソース、帯域幅、データセンター
l 冗⻑性、QoS
l DNS、ロードバランス
l キャパシティプランニングと性能予測
l トラフィック予想
l 負荷テスト結果、最⼤応答性能/データセンター
l 他サービスへの影響
l ストレージ容量予想
l 冗⻑化とフェイルオーバー
l サーバー/ラック/クラスター障害発⽣時の挙動
l データセンター間NW障害時の挙動
l バックエンドサービス障害時の挙動
l 障害発⽣時の再起動/回復の⼿順
l バックアップ/リストア/DR回復⼿順
l 監視と運⽤
l 内部状態の監視と外部からの監視、アラートの設計
l 監視システムの監視
l ビジネス的に重要なアラートとログの定義
l アラートメール攻撃の回避
l セキュリティ
l スパム対策、脆弱性対策、認証認可設定
l リリース前のアクセス制御、ブラックリスト設定
l ⾃動化とマニュアルタスク
l 変更管理/プロビジョニング⼿順
l リリース⼿順、継続的ビルド/デプロイ⼿順、カナ
リー/ステージドロールアウト⼿順
l スケーリング
l スペアリソース、バースト対応、あらーちょ
l スケーリングのボトルネック、HW/キャッシュ/
データ分割⽅法
l 外部依存性
l 依存外部システムのキャパシティ
l 外部サービス容量超過時のデグレード⽅法
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 18
Postmortem Culture
l 直訳では検死報告書、障害報告書であるが、内部資料
l Blame-freeポリシー:
l ⼈やチームを咎めない
l 現象と経過、対応内容と結果を記録し、共有するのが⽬的
l 典型的には下記のような障害発⽣、サービス回復後に作成
l ユーザーに影響のあるサービス障害
l データ喪失
l オンコールエンジニアが対応した障害
l 回復に想定以上の時間がかかった場合
l 監視に関する障害により、マニュアル作業が発⽣した場合 (オンコールエンジニアにエスカレーションされな
かった)
l 障害発⽣中の対応(chat/mail etc.)はすべて記録されなければならず、Postmortemに反
映される
l Postmortemを書くのは、新⼈の仕事ではない
l 新⼈教育は、Postmortemを読むことから始まり、Postmortemをベースとしたロールプ
レイトレーニングが実施される
l Postmortem勉強会が常に開催され、優れたPostmortemを書いたエンジニアは、勉強会
の講師となり尊敬される
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 19
Postmortem例
l インシデント#465
l XXシステムPostmortem
l 報告年⽉⽇:
l 著者:
l ステータス:
l 完了、アクションアイテム作業中
l 要約:
l アクセスピーク時間中に66分間XXシステムサイトサイトダ
ウン
l 影響:
l 約12億ビューの喪失、売上への影響はなし
l 根本原因:
l ⾼負荷のためにメモリリークによるリソース不⾜が発⽣し、
ネットワーク負荷が上がった複合障害
l トリガー:
l XXモジュールの潜在バグ
l 解決策:
l トラフィックをリソースを10倍に増やしたクラスターにリ
ダイレクトし、負荷を緩和
l 監視結果:
l Hhttpp500エラーの多発のため、アラート発報
l アクションアイテム:
l 項⽬、タイプ、担当者、チケット番号
l Lessons Learned
l 何がうまくいったか
l 監視システムが正常にエラー検出しアラートを発報
l 何がうまくいかなかったか
l 初めて経験した複合障害のため、障害原因特定に時間がか
かった
l 幸運だった点
l バックアップが残っていた
l 経過詳細:
l 時間、現象、対応
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 20
インシデントレスポンス
l ICS: Incident Command Systemがベース
l https://en.wikipedia.org/wiki/Incident_Command_System
l http://www.bousai.go.jp/kaigirep/kentokai/kentokaigi/04/pdf/shiryo1.pdf
l ⽶国で開発された包括的な危機管理体系であり、種類・規模・場所・複雑さ、あらゆる組織に適⽤できる危機管理の考え⽅、
原則を整理したもの
l 危機管理の標準化(語彙と意味、組織、権限、⼿順など)により、災害対応従事者の協⼒と相互運⽤性を向上させる
l インシデントレスポンスでは、状況に応じて下記の役割を割りあてる
l インシデントコマンダー:指揮調整者
l オペレーショナルワーク:実際にシステム変更作業を⾏うチーム、他の担当者は操作を許されない
l コミュニケーション:記録と関係者への報告
l プランニング:オペレーショナルワークをサポートするための各種⼿配、交代要員調整
l コミュニケーションツール
l 必ず記録が残るように、メールやIRCなどのチャットツールを使う、Googleではトピックやログを⾃動収集するボットも使⽤
l ライブドキュメント:関係者が誰でも読み書きできる掲⽰板、Google Docsなど
l 明確な引き継ぎ:誰もがわかるように、内容と業務を明確に引き継ぐ
l インシデントレスポンスのベストプラクティス
l 優先順位:⽌⾎、回復、証拠保全
l 準備:インシデントレスポンス⼿順の標準化と⽂書化、トレーニング
l 信頼:対応チームメンバーへの信頼と委任
l 内省:パニックになる前に、⽀援を依頼する
l 選択肢の考慮:定期的に選択肢を再検討する
l 演習:⾃然に体が動くまで演習を⾏う
l 役割交代:すべてのメンバーがすべての役割をこなせるように、都度役割は交代する
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 21
⽂書化⼤事
l 優秀なエンジニアは、ドキュメント化しなければなら
ない
l 知識と技術を暗黙知から、共有し活⽤される知識に変
えるのがドキュメント化
l Postmortemだけでなく、チェックリストやマニュアル
など、常にレビュー/アップデートが⾏われる
l そのためのミーティングも重視されている
l 記録するだけでなく、検索や集計など再利⽤できるこ
とが重要
l 勘と度胸の運⽤ではなく、計測とデータによる運⽤
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 22
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 23
DevOpsとは
l 「DevOpsとは開発と運⽤が協⼒し、ビジネスリスク
を軽減する」
l http://www.publickey1.jp/blog/11/devops.html
l 初出は、2009年に⾏われた「Velocity 2009」というイ
ベントでFlickrのスタッフが⾏ったプレゼンテーション
「10 deploys per day : Dev&Ops cooperation at
Flickr」らしい。(https://ja.wikipedia.org/wiki/DevOps)
l http://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-
ops-cooperation-at-flickr
l この時点では、GoogleはSREを始めて既に6年経過し
ていたが、対外的な積極的発信はしていなかった
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 24
「10 deploys per day」から引⽤
DevOpsとは、
1. ⾃動化されたインフラ
2. 共有バージョン管理
3. ワンステップビルドとデプロイ
4. 機能フラグによるリリース機能制
限
5. DevとOpsの共有メトリクス
6. IRCとIMロボット
⽂化
1. 尊敬
2. 信頼
3. 障害への健全な姿勢
4. ⼈のせいにしない
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 25
SREにあって、DevOpsにないもの
l ⽂書化
l コミュニケーション
l レビュー
l エラーバジェットやPRR、Postmotern、ICSなどの仕
組み
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 26
シスアド vs DevOps vs SRE?
l シスアド:何らかの⽬的のためにシステムを設計、構
築、正常運転維持、予防保全を⾏う
l DevOps:同上
l SRE:同上
l 違いは対象とするもの
l シスアド:⼀度構築したら⼤きな変化はないシステム
l DevOps:常に迅速な変化が要求されるシステム
l SRE:Google
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 27
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 28
Googleデータセンター
l 全世界に15ヶ所(2016/7現在)
l 1ヶ所あたり10万〜40万台、合計400万台?以
上のサーバー(推測)
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 29
Googleネットワーク
l グローバルSDN WAN
l 内製HW/SW
l Tb/sのセンター間通信、約900Gb/sのパブリック接続
l 世界第3位のISP
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 30
http://postd.cc/how-google-invented-
an-amazing-datacenter-network-
only-they-could-create/
http://www.slideshare.net/oraccha/a-
look-inside-googles-data-center-
networks
Googleハードウェア
l もしかすると世界最⼤のコンピュータメーカー?
l OCP(Open Compute Project)にも参加
l サーバー、ストレージ、スイッチ、ルーター
l 量⼦コンピュータ、TFカスタムチップ
l 携帯、⾞、メガネ、ロケット?
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 31
OCPサーバー
Googleソフトウェア
l Linuxベースの独⾃OS
l MapReduceをはじめとする独⾃MW、ツールで統⼀さ
れた単⼀環境
l Android、Chrome
l その他Kubernetes、TensorFlowなどOSS
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 32
Googleスケール
l 2015年度
l 売上⾼$74,541M
l 営業利益$23,425M
l 営業利益率31%
l 従業員数約6万⼈
l 従業員あたり営業利益$390K
l 全世界84オフィス
l Fortune500の売上⾼94位
l IBM 84位、ソフトバンク92位
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 33
http://toyokeizai.net/articles/-/64182?page=2
⽇本のエンタープライズ環境
l スケール:多くて2,000 - 3,000台のサーバ
l SW/HW/NW:各ベンダーから調達、異種混在環境
l 体制:システム部 -> システム⼦会社 -> Sier -> 2次請
-> 以下⾃粛
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 34
結論
我々はGoogleにはなれない
しかし、知⾒は活⽤できる
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 35
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 36
エンタープライズIT
l 広告/ゲーム/Web系とは別世界
l 変化しないシステムと変化するシステムの両極分化
l 情報システム部⾨無⽤論
l 全体的にも、変化速度がゆっくりと増えて⾏く
l 古い酒を新しい器に⼊れるような仕事が増える
l 複雑さが増し、従来の運⽤は破綻する
l しかし予算は減らされる
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 37
バージョン管理
サービスデスク
Open Programmable
Infrastructure Environment
38
運⽤
ポータル
ヒヤリン
グシート
設定シート
ミドルウェア/
アプリ
構成管理
実⾏管理
構築情報
変更依
頼
アラート
/イベント
API連携
インベントリ
/コンフィグ
/ステータス
ユーザ
オペレータ
SE
状態監視
vmware
構築/検証
Fabric
物理サーバ
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved
インベントリ収集
ログ管理
ヒヤリングシート
監視設定
Zabbix
構築設定
監視サーバ
OpenAudIT
GetInfo
インベントリ情報
DB
JobSche
duler
チケット
サーバメール
監視情報
イベント
UI
バージョン
管理
GITlab
TeraForm
Ansible
ServerSpec
JobMonitoring
RedMine
otrs
ZABBIX
Liferay
Packer
イメージ作成
ファイルアップロード
コンフィグ表⽰(コマンド起動)
ダウンロード
パラメータ
作成
GIT連携
AWS
VirtualBOX
OpenStack
GCPX
VMware
OpenPIE
2016.04 ヒヤリング
シート
アップ
ロード
xls2json
各種設定
パラメータ
CMDBuild
構築
cloudconf
コン
フィグ
作成
Register
Config Deliver
CMDB
Scheduler
Monitoring
OpenPIE概要
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 39
ヒヤリングシート例
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 40
⾃動化の鍵:ワークフロー制御
l ⼈間判断フロー:Enhydra Shark
l 承認、指⽰など各ステークホルダが⼊⼒
l プログラム制御:JobScheduler
l エラー制御、分岐判断のロジックを記述
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 41
今やるべき事:経営陣
l 今から5年は、IT技術⼤変⾰期
l 今までの技術停滞期に合わせた体制では、
破綻する
l 変⾰期に合わせた⼈員配分と組織編成を
再考するべき
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 42
今やるべき事:管理職
もっと勉強しろ
マスコミやベンダー情報
は10年遅れている
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 43
今やるべき事:現場
l 転職活動
l 開発部⾨も運⽤部⾨も
l Excel/Word/Powerpointの⼿順書はコード化
l コード化すれば、ドキュメントを⽣成する⽅法はある
l コーディング/レビュー/テストを、運⽤と開発で
共通化標準化
l 計測し、記録し、⽂書化し、共有知化する仕組
みを作る
l 記録するだけでなく、検索や集計など再利⽤できることが重要
l 勘と度胸の運⽤ではなく、計測とデータによる運⽤
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 44
最後に
企業⽂化は⾃然に醸成されるものではなく、
設計/構築/維持管理が必要な繊細なシステム
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 45
参考資料
l Site Reliability Engineering - How Google Runs Production Systems
l https://www.amazon.co.jp/Site-Reliability-Engineering-Production-Systems/dp/149192912X
l クラウドを⽀える技術 ―データセンターサイズのマシン設計法⼊⾨
l https://www.amazon.co.jp/%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B%E6%
8A%80%E8%A1%93-
%E2%80%95%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC%E3%82%B5%E3%82%A4%E3
%82%BA%E3%81%AE%E3%83%9E%E3%82%B7%E3%83%B3%E8%A8%AD%E8%A8%88%E6%B3%95%E5%85%A5%E9%96%80-WEB-
PRESS-plus/dp/4774167304/ref=sr_1_sc_2?ie=UTF8&qid=1468737268&sr=8-2-spell&keywords=datacenter+as+acomputer
l What is ‘Site Reliability Engineering’?
l https://landing.google.com/sre/interview/ben-treynor.html
l Keys to SRE Presentation by Ben Treynor @ SREcon14
l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre
l How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16
l https://youtu.be/H4vMcD7zKM0
l Love DevOps? Wait 'till you meet SRE
l https://www.atlassian.com/it-service/site-reliability-engineering-sre
l Hiring Site Reliability Engineers
l https://www.usenix.org/system/files/login/articles/login_june_07_jones.pdf
l The Systems Engineering Side of SiteReliability Engineering
l https://www.usenix.org/system/files/login/articles/login_june_08_hixson.pdf
l Weathering the Unexpected
l http://delivery.acm.org/10.1145/2380000/2371516/p30-krishnan.pdf
l Borg, Omega, and Kubernetes
l http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/44843.pdf
2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 46

More Related Content

What's hot

「今、ヨーロッパのオープンソースがアツい!」 クラウドの構成管理を自動化する基盤CMDBuild
「今、ヨーロッパのオープンソースがアツい!」クラウドの構成管理を自動化する基盤CMDBuild「今、ヨーロッパのオープンソースがアツい!」クラウドの構成管理を自動化する基盤CMDBuild
「今、ヨーロッパのオープンソースがアツい!」 クラウドの構成管理を自動化する基盤CMDBuildOSSラボ株式会社
 
Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例OSSラボ株式会社
 
AWS/Openstack integration with openQRM
AWS/Openstack integration with openQRMAWS/Openstack integration with openQRM
AWS/Openstack integration with openQRMOSSラボ株式会社
 
CMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 updateCMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 updateOSSラボ株式会社
 
自動運転業界のSRE活動
自動運転業界のSRE活動自動運転業界のSRE活動
自動運転業界のSRE活動Tier_IV
 
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介OSSラボ株式会社
 
SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)OSSラボ株式会社
 
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアルAzure API Management 俺的マニュアル
Azure API Management 俺的マニュアル貴志 上坂
 
140917運用管理勉強会job scheduler
140917運用管理勉強会job scheduler140917運用管理勉強会job scheduler
140917運用管理勉強会job schedulerOSSラボ株式会社
 
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介Daisuke Ikeda
 
ジョブストリーム紹介資料
ジョブストリーム紹介資料ジョブストリーム紹介資料
ジョブストリーム紹介資料OSSラボ株式会社
 
オープンに活動することと現場の改善~Zabbix導入による改善物語~
オープンに活動することと現場の改善~Zabbix導入による改善物語~オープンに活動することと現場の改善~Zabbix導入による改善物語~
オープンに活動することと現場の改善~Zabbix導入による改善物語~Daisuke Ikeda
 
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介Daisuke Ikeda
 
NoOpsへ舵を切れ
NoOpsへ舵を切れNoOpsへ舵を切れ
NoOpsへ舵を切れHiromasa Oka
 
バッチソリューションAzarea cluster 2016
バッチソリューションAzarea cluster 2016バッチソリューションAzarea cluster 2016
バッチソリューションAzarea cluster 2016AzareaCluster
 
AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)AzareaCluster
 
15分で分かる NoOps
15分で分かる NoOps15分で分かる NoOps
15分で分かる NoOpsHiromasa Oka
 
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3日本Javaユーザーグループ
 

What's hot (20)

「今、ヨーロッパのオープンソースがアツい!」 クラウドの構成管理を自動化する基盤CMDBuild
「今、ヨーロッパのオープンソースがアツい!」クラウドの構成管理を自動化する基盤CMDBuild「今、ヨーロッパのオープンソースがアツい!」クラウドの構成管理を自動化する基盤CMDBuild
「今、ヨーロッパのオープンソースがアツい!」 クラウドの構成管理を自動化する基盤CMDBuild
 
Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例
 
AWS/Openstack integration with openQRM
AWS/Openstack integration with openQRMAWS/Openstack integration with openQRM
AWS/Openstack integration with openQRM
 
CMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 updateCMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 update
 
自動運転業界のSRE活動
自動運転業界のSRE活動自動運転業界のSRE活動
自動運転業界のSRE活動
 
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
 
180729 jtf open-audit
180729 jtf open-audit180729 jtf open-audit
180729 jtf open-audit
 
SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)
 
Azure API Management 俺的マニュアル
Azure API Management 俺的マニュアルAzure API Management 俺的マニュアル
Azure API Management 俺的マニュアル
 
140917運用管理勉強会job scheduler
140917運用管理勉強会job scheduler140917運用管理勉強会job scheduler
140917運用管理勉強会job scheduler
 
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
 
Cndt2021 casareal
Cndt2021 casarealCndt2021 casareal
Cndt2021 casareal
 
ジョブストリーム紹介資料
ジョブストリーム紹介資料ジョブストリーム紹介資料
ジョブストリーム紹介資料
 
オープンに活動することと現場の改善~Zabbix導入による改善物語~
オープンに活動することと現場の改善~Zabbix導入による改善物語~オープンに活動することと現場の改善~Zabbix導入による改善物語~
オープンに活動することと現場の改善~Zabbix導入による改善物語~
 
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
 
NoOpsへ舵を切れ
NoOpsへ舵を切れNoOpsへ舵を切れ
NoOpsへ舵を切れ
 
バッチソリューションAzarea cluster 2016
バッチソリューションAzarea cluster 2016バッチソリューションAzarea cluster 2016
バッチソリューションAzarea cluster 2016
 
AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)
 
15分で分かる NoOps
15分で分かる NoOps15分で分かる NoOps
15分で分かる NoOps
 
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
Javaエンジニアに知ってほしい、Springの教科書「TERASOLUNA」 #jjug_ccc #ccc_f3
 

Viewers also liked

20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naitocyberagent
 
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineeringhbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability EngineeringRyuji Tamagawa
 
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)さくらインターネット株式会社
 
”30分”ぐらいでわかる「Kubernetes」について
”30分”ぐらいでわかる「Kubernetes」について”30分”ぐらいでわかる「Kubernetes」について
”30分”ぐらいでわかる「Kubernetes」についてYuya Ohara
 
Promcon2016
Promcon2016Promcon2016
Promcon2016wyukawa
 
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集matsu_chara
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkTakanori Suzuki
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方Yoshiyasu SAEKI
 

Viewers also liked (8)

20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito20141106_cwt-zenmyo-naito
20141106_cwt-zenmyo-naito
 
hbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineeringhbstudy 74 Site Reliability Engineering
hbstudy 74 Site Reliability Engineering
 
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
 
”30分”ぐらいでわかる「Kubernetes」について
”30分”ぐらいでわかる「Kubernetes」について”30分”ぐらいでわかる「Kubernetes」について
”30分”ぐらいでわかる「Kubernetes」について
 
Promcon2016
Promcon2016Promcon2016
Promcon2016
 
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
Kafkaを使った マイクロサービス基盤 part2 +運用して起きたトラブル集
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
 

Similar to 160724 jtf2016sre

20161111 java one2016-feedback
20161111 java one2016-feedback20161111 java one2016-feedback
20161111 java one2016-feedbackTakashi Ito
 
What is tested by pre-launch (security) reports?
What is tested by pre-launch (security) reports?What is tested by pre-launch (security) reports?
What is tested by pre-launch (security) reports?ak_shio_555
 
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)オラクルエンジニア通信
 
アジャイル事例紹介
アジャイル事例紹介アジャイル事例紹介
アジャイル事例紹介hiko99
 
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化Kunihiko Ikeyama
 
Oracle GoldenGate Studio R12.2.1.1 セットアップガイド
Oracle GoldenGate Studio R12.2.1.1 セットアップガイドOracle GoldenGate Studio R12.2.1.1 セットアップガイド
Oracle GoldenGate Studio R12.2.1.1 セットアップガイドオラクルエンジニア通信
 
DeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in TestDeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in TestMasaki Nakagawa
 
その Web サイト、その Web アプリを最新の IE11 に対応しよう
その Web サイト、その Web アプリを最新の IE11 に対応しようその Web サイト、その Web アプリを最新の IE11 に対応しよう
その Web サイト、その Web アプリを最新の IE11 に対応しようOsamu Monoe
 
Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例Kosuke Ito
 
SeleniumConf16 UK参加報告
SeleniumConf16 UK参加報告SeleniumConf16 UK参加報告
SeleniumConf16 UK参加報告Osamu Shimoda
 
Azure RedHat OpenShift - Red Hat Forum 2019
Azure RedHat OpenShift - Red Hat Forum 2019Azure RedHat OpenShift - Red Hat Forum 2019
Azure RedHat OpenShift - Red Hat Forum 2019Yoshio Terada
 
Ossを使ったazureでのdev ops
Ossを使ったazureでのdev opsOssを使ったazureでのdev ops
Ossを使ったazureでのdev ops裕貴 荒井
 
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発Takashi Watanabe
 
Yahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumi
Yahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumiYahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumi
Yahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumiYahoo!デベロッパーネットワーク
 
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1近藤 繁延
 

Similar to 160724 jtf2016sre (20)

20161111 java one2016-feedback
20161111 java one2016-feedback20161111 java one2016-feedback
20161111 java one2016-feedback
 
じげんのサーバサイドエンジニアリング
じげんのサーバサイドエンジニアリングじげんのサーバサイドエンジニアリング
じげんのサーバサイドエンジニアリング
 
What is tested by pre-launch (security) reports?
What is tested by pre-launch (security) reports?What is tested by pre-launch (security) reports?
What is tested by pre-launch (security) reports?
 
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
 
アジャイル事例紹介
アジャイル事例紹介アジャイル事例紹介
アジャイル事例紹介
 
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
 
Oracle GoldenGate Studio R12.2.1.1 セットアップガイド
Oracle GoldenGate Studio R12.2.1.1 セットアップガイドOracle GoldenGate Studio R12.2.1.1 セットアップガイド
Oracle GoldenGate Studio R12.2.1.1 セットアップガイド
 
DeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in TestDeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in Test
 
その Web サイト、その Web アプリを最新の IE11 に対応しよう
その Web サイト、その Web アプリを最新の IE11 に対応しようその Web サイト、その Web アプリを最新の IE11 に対応しよう
その Web サイト、その Web アプリを最新の IE11 に対応しよう
 
[GrapeCity Web TECH FORUM 2018]グレープシティJavaScript製品のご紹介 活用のコツと開発のポイント
[GrapeCity Web TECH FORUM 2018]グレープシティJavaScript製品のご紹介 活用のコツと開発のポイント[GrapeCity Web TECH FORUM 2018]グレープシティJavaScript製品のご紹介 活用のコツと開発のポイント
[GrapeCity Web TECH FORUM 2018]グレープシティJavaScript製品のご紹介 活用のコツと開発のポイント
 
Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例Bitbucketを活用したコードレビュー改善事例
Bitbucketを活用したコードレビュー改善事例
 
SeleniumConf16 UK参加報告
SeleniumConf16 UK参加報告SeleniumConf16 UK参加報告
SeleniumConf16 UK参加報告
 
Azure RedHat OpenShift - Red Hat Forum 2019
Azure RedHat OpenShift - Red Hat Forum 2019Azure RedHat OpenShift - Red Hat Forum 2019
Azure RedHat OpenShift - Red Hat Forum 2019
 
Ossを使ったazureでのdev ops
Ossを使ったazureでのdev opsOssを使ったazureでのdev ops
Ossを使ったazureでのdev ops
 
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
継続的デリバリーとサービス仮想化で変わる、エンタープライズアジャイル開発
 
Yahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumi
Yahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumiYahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumi
Yahoo! JAPANが実践するOpenStackと大規模環境でのコンテナ利用 #devsumi
 
Oss事例紹介資料20141111 明日の認証会議 掲載用
Oss事例紹介資料20141111 明日の認証会議 掲載用Oss事例紹介資料20141111 明日の認証会議 掲載用
Oss事例紹介資料20141111 明日の認証会議 掲載用
 
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
 
Azure <3 Openness
Azure <3 OpennessAzure <3 Openness
Azure <3 Openness
 
Oracle GoldenGate Studioセットアップガイド
Oracle GoldenGate StudioセットアップガイドOracle GoldenGate Studioセットアップガイド
Oracle GoldenGate Studioセットアップガイド
 

More from OSSラボ株式会社

More from OSSラボ株式会社 (15)

220523JS7.pdf
220523JS7.pdf220523JS7.pdf
220523JS7.pdf
 
JS7 JobScheduler プレビュー
JS7 JobScheduler プレビューJS7 JobScheduler プレビュー
JS7 JobScheduler プレビュー
 
201023 jobscheduler os_cfall
201023 jobscheduler os_cfall201023 jobscheduler os_cfall
201023 jobscheduler os_cfall
 
191010 opie2
191010 opie2191010 opie2
191010 opie2
 
CMDBuild V.3 update [Japanese]
CMDBuild V.3 update [Japanese]CMDBuild V.3 update [Japanese]
CMDBuild V.3 update [Japanese]
 
170827 jtf garafana
170827 jtf garafana170827 jtf garafana
170827 jtf garafana
 
NMIS overview
NMIS overviewNMIS overview
NMIS overview
 
オープンソースNW監視ツールのご紹介
オープンソースNW監視ツールのご紹介オープンソースNW監視ツールのご紹介
オープンソースNW監視ツールのご紹介
 
Ansible2.0と実用例
Ansible2.0と実用例Ansible2.0と実用例
Ansible2.0と実用例
 
141030ceph
141030ceph141030ceph
141030ceph
 
Openstack+Ceph設定ガイド
Openstack+Ceph設定ガイドOpenstack+Ceph設定ガイド
Openstack+Ceph設定ガイド
 
openstack+cephインテグレーション
openstack+cephインテグレーションopenstack+cephインテグレーション
openstack+cephインテグレーション
 
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
 
JobSchedulerを使ったAsakusaのジョブ管理
JobSchedulerを使ったAsakusaのジョブ管理JobSchedulerを使ったAsakusaのジョブ管理
JobSchedulerを使ったAsakusaのジョブ管理
 
Cephのベンチマークをしました
CephのベンチマークをしましたCephのベンチマークをしました
Cephのベンチマークをしました
 

Recently uploaded

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 

Recently uploaded (8)

IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 

160724 jtf2016sre

  • 1. Site Reliability Engineering (SRE)で 拡がる運⽤の世界 Googleでの展開から、エンタープライズへの夢は⾒れるか 2016/7/24 http://www.ossl.co.jp TWITTER: http://twitter.com/satoruf LINKEDIN: http://jp.linkedin.com/in/satorufunai/ja SLIDESHARE: http://www.slideshare.net/sfunai FACEBOOK: http://www.facebook.com/satoru.funai Open Programmable Infrastructure Environment 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 1
  • 2. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 2
  • 3. SREとは l Site Reliability Engineering l サイト信頼性⼯学? l 信頼性⼯学とは、システム の信頼性を分析する⼯学⼿ 法である。 l https://ja.wikipedia.org/wiki/%E4%BF% A1%E9%A0%BC%E6%80%A7%E5% B7%A5%E5%AD%A6 l しかし、サイト信頼性⼯学 という学問はない 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 3
  • 5. 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 5
  • 6. 今⽇の元ネタ 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 6
  • 8. GoogleでのSREの定義 l “Fundamentally, it’s what happens when you ask a software engineer to design an operations function.” l https://landing.google.com/sre/interview/ben-treynor.html l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre l 「SRE とは、操作機能を作ってくれとソフトウェア エンジニアに頼んだときに起こる ことだ」 l http://googlecloudplatform-japan.blogspot.jp/2016/07/sre-google-mission- control.html?1468590211542=1&m=1 l Mr. Benjamin Treynor Sloss l https://www.linkedin.com/in/benjamin-treynor-sloss-207120 l Terse variant: If Google ever stops working, it's my fault. Verbose variant : I have been responsible for global operations, networking, and production engineering at Google since 2003. As of 2016, I manage a team of approximately 4,000 software, hardware, and network engineers across the globe. Along the way, * I coined the term "Site Reliability Engineering" for my team of (now) x,xxx software engineers engaged in what were traditionally operations functions, and I have watched with some pride as the rest of the SaaS industry has adopted the SRE name, mission, and practices. * I built the networking team, from its initial scope of providing a pair of leased OC48s, to its current size -- publicly estimated to be one of the 3 largest networks in the world. * Since 2010 I've also managed datacenter design, construction and operations, and servers. Public estimates are that as of 2014 Google has built between 200MW and 680MW of highly-efficient datacenters worldwide. * Finally, since late 2013 I've been engaged on Google's public cloud product, Google Cloud Platform 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 8
  • 9. Keys to SRE Presentation by Ben Treynor @ SREcon14 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 9
  • 10. SREの範囲 How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 10
  • 11. Keys to SRE Presentation by Ben Treynor @ SREcon14 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 11
  • 12. Google SWエンジニア新卒採⽤ 必要な条件/経験 4 年制⼤学卒または関連職種での実務経験 プログラミング能⼒( 特に C++ , Java, Python) 望ましい経験/スキル 修⼠号または博⼠号を取得していること Unix / Linux または Windows 環境におけるソフ トウェア開発や API の経験 ネットワーク プログラミングやソフトウェア シ ステムの開発または設計の経験 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 12
  • 13. 新卒SWエンジニアが配属される組織 l プロダクト&システム デベロップメント: l 検索品質を向上させる⾰新的な⽅法の発⾒、コンピューティング プラットフォームやネットワーキング技術 の構築、動画のインデックス登録の⾃動化、複雑なオークション システムの改善・拡⼤など、様々な課題に 対してソリューションを開発します。Google のプロダクトの拡⼤と品質向上を実現するためのソフトウェア アプリケーションをリサーチ、企画、開発しながら、⼤量のデータや情報アクセスに関わる問題にチームで 取り組むことが求められます。関連する専⾨分野の例として、AJAX および同様の技術を使⽤したユーザー インターフェース開発、セキュリティ、組み込みシステムとモバイルアプリ(Android および iOS)、デベ ロッパー ツール(IDE、⼤規模なビルドシステム、コンパイラ)などが挙げられます。 l エンジニアリング プロダクティビティ: l ソフトウェア設計スキル、分析⼒、プログラミング能⼒を駆使して⾰新的な⾃動テストシステムを構築しま す。これは、単なるデバッグやテストの実施といった表⾯的な作業のみを指すわけではありません。テスト チームは⽇々幅広い課題に取り組みながら、分散コンピューティング インフラストラクチャにおける多様な シナリオに対応するため、インテリジェント システムの設計と構築を担当します。これまでは存在しなかっ たものに対する⾃動テストシステムを設計、構築しようとするとき、参照できる教科書はありません。この グループで業務にあたる⼈材として Google が優秀なエンジニアを求めているのはそのためです。 l サイト リライアビリティ: l Google の製品開発プロセス全体に関与し、クラウドベース コンピューティングの最前線で業務にあたりま す。この精鋭チームの⼀員として、トラフィック異常のコードレベルのトラブルシューティングから最新 サービスのメンテナンスまで、またモニタリングやアラートから新しい⾃動化インフラストラクチャの構築 まで、Google の運営を維持するあらゆる業務に対応します。このチームのエンジニアは、何千万という数の ユーザー規模に⾒合う強靭かつ拡張可能なソフトウェアの作成に情熱を傾けています。⽇々新しく出会う 様々な事象に取り組み、ほぼすべてのエンジニアリング チームやオペレーション チームと連携して、すべて の⼈がアクセスできるような Google ならではのサービスとアプリケーションを提供します。 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 13
  • 14. GoogleでのSREとは l 全世界に約2,000⼈(SW/NWエンジニア含めて4,000⼈) l すべての製品/サイトにSREチームがあるわけではない l 他のチームと共通採⽤、共通⼈材プール l チーム間は対等(Dev. vs Ops.ではない) l チーム間の移動は常に可能 l つまり、SREを増員すれば、開発チームはメンバーが減る l Mission Controlプログラム:製品開発に携わるエンジニアに SREの仕事を体験させる 6 か⽉のローテーション プログラム、実際に受けた⼈間の半分はSREのポジションを選択している l SREの時間の50%以上は、開発プロジェクトに当てられなければならない l 50%未満になる=運⽤/障害対応時間が50%以上になると、該当製品開発チームに負荷が割り振られる l SREの開発プロジェクトは、⾃動化や監視ツールにとどまらず、サービスレベルの向上に役⽴つもの全て(ロー ドバランサ、分散合意システム、分散スケジューリング、etc.) l サービス運⽤負荷の5%は製品開発チームが負担する l 運⽤/障害対応には、チケット処理、障害対応、オンコール(当番)が含まれる l オンコールは、8-12時間交代、時間で25%以下(1週間/⽉)、オンコール中のイベントは2件程度 l オンコールは、プライマリーとセカンダリーの⼆⼈体制で、典型的チームは8⼈体制となる l オンコールは、「新⼈の仕事ではない」。オンコールは、トレーニングとチェックリストにパスしないとできな い。 l オンコール中のSREはサービス停⽌を含む、サービスに関する全権を委譲されている。 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 14
  • 15. SRE as a custodian “SREs are the custodian of production. SREs are the custodian of customer experience” 「SREとは、サービスとユーザー体験の 管理者であり守護者である」 How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 15
  • 16. SLAとエラーバジェット l SREチームと製品開発チーム間の契約 l エラーバジェット=100%-SLA(例:99.9%)=0.1% l エラーバジェット(=SLA)は、製品開発チームが定める l エラーバジェットを超えた場合は、製品開発チームに対応が割り 振られる l SLAを厳しくすれば、SRE対応可能時間は短くなる l 殆どのSRE対応は、新機能リリース時に発⽣する l つまり、エラーバジェットを使い果たすと、新機能リリースは凍 結せざるをえない l それを避けるためには、リリース前のレビューが重要 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 16
  • 17. リリース前レビュー l 必ずPRR:Production Readiness Reviewが、以下の観点でSREと 開発チームで⾏われる l システムアーキテクチャー、他サービスとの依存性 l エマージェンシーレスポンス l キャパシティプランニング l 変更管理 l 計測:信頼性、応答性、リソース l PPRの中で、SLA/SLO/SLIを合意し、製品設計に必要なフィード バックを⾏い、トレーニングなどのスケジュールを決定する l SREの中には、リリース専⾨部隊(LCE: Launch Coordination Engineering)がある l 製品開発チームと協⼒して、関連するチームを横断し⾼品質な製品リリースに 向けてコンサルテーションを⾏う l Google検索から、Andoroidアプリまで全てのGoogle製品に関わる l もし製品開発チームと合意できなければ、 SREは断れる2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 17
  • 18. Launch Coordination Checklist例 l アーキテクチャー l アーキテクチャー概要 l クライアントからのリクエスト(API) l マシン/データセンター l 使⽤リソース、帯域幅、データセンター l 冗⻑性、QoS l DNS、ロードバランス l キャパシティプランニングと性能予測 l トラフィック予想 l 負荷テスト結果、最⼤応答性能/データセンター l 他サービスへの影響 l ストレージ容量予想 l 冗⻑化とフェイルオーバー l サーバー/ラック/クラスター障害発⽣時の挙動 l データセンター間NW障害時の挙動 l バックエンドサービス障害時の挙動 l 障害発⽣時の再起動/回復の⼿順 l バックアップ/リストア/DR回復⼿順 l 監視と運⽤ l 内部状態の監視と外部からの監視、アラートの設計 l 監視システムの監視 l ビジネス的に重要なアラートとログの定義 l アラートメール攻撃の回避 l セキュリティ l スパム対策、脆弱性対策、認証認可設定 l リリース前のアクセス制御、ブラックリスト設定 l ⾃動化とマニュアルタスク l 変更管理/プロビジョニング⼿順 l リリース⼿順、継続的ビルド/デプロイ⼿順、カナ リー/ステージドロールアウト⼿順 l スケーリング l スペアリソース、バースト対応、あらーちょ l スケーリングのボトルネック、HW/キャッシュ/ データ分割⽅法 l 外部依存性 l 依存外部システムのキャパシティ l 外部サービス容量超過時のデグレード⽅法 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 18
  • 19. Postmortem Culture l 直訳では検死報告書、障害報告書であるが、内部資料 l Blame-freeポリシー: l ⼈やチームを咎めない l 現象と経過、対応内容と結果を記録し、共有するのが⽬的 l 典型的には下記のような障害発⽣、サービス回復後に作成 l ユーザーに影響のあるサービス障害 l データ喪失 l オンコールエンジニアが対応した障害 l 回復に想定以上の時間がかかった場合 l 監視に関する障害により、マニュアル作業が発⽣した場合 (オンコールエンジニアにエスカレーションされな かった) l 障害発⽣中の対応(chat/mail etc.)はすべて記録されなければならず、Postmortemに反 映される l Postmortemを書くのは、新⼈の仕事ではない l 新⼈教育は、Postmortemを読むことから始まり、Postmortemをベースとしたロールプ レイトレーニングが実施される l Postmortem勉強会が常に開催され、優れたPostmortemを書いたエンジニアは、勉強会 の講師となり尊敬される 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 19
  • 20. Postmortem例 l インシデント#465 l XXシステムPostmortem l 報告年⽉⽇: l 著者: l ステータス: l 完了、アクションアイテム作業中 l 要約: l アクセスピーク時間中に66分間XXシステムサイトサイトダ ウン l 影響: l 約12億ビューの喪失、売上への影響はなし l 根本原因: l ⾼負荷のためにメモリリークによるリソース不⾜が発⽣し、 ネットワーク負荷が上がった複合障害 l トリガー: l XXモジュールの潜在バグ l 解決策: l トラフィックをリソースを10倍に増やしたクラスターにリ ダイレクトし、負荷を緩和 l 監視結果: l Hhttpp500エラーの多発のため、アラート発報 l アクションアイテム: l 項⽬、タイプ、担当者、チケット番号 l Lessons Learned l 何がうまくいったか l 監視システムが正常にエラー検出しアラートを発報 l 何がうまくいかなかったか l 初めて経験した複合障害のため、障害原因特定に時間がか かった l 幸運だった点 l バックアップが残っていた l 経過詳細: l 時間、現象、対応 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 20
  • 21. インシデントレスポンス l ICS: Incident Command Systemがベース l https://en.wikipedia.org/wiki/Incident_Command_System l http://www.bousai.go.jp/kaigirep/kentokai/kentokaigi/04/pdf/shiryo1.pdf l ⽶国で開発された包括的な危機管理体系であり、種類・規模・場所・複雑さ、あらゆる組織に適⽤できる危機管理の考え⽅、 原則を整理したもの l 危機管理の標準化(語彙と意味、組織、権限、⼿順など)により、災害対応従事者の協⼒と相互運⽤性を向上させる l インシデントレスポンスでは、状況に応じて下記の役割を割りあてる l インシデントコマンダー:指揮調整者 l オペレーショナルワーク:実際にシステム変更作業を⾏うチーム、他の担当者は操作を許されない l コミュニケーション:記録と関係者への報告 l プランニング:オペレーショナルワークをサポートするための各種⼿配、交代要員調整 l コミュニケーションツール l 必ず記録が残るように、メールやIRCなどのチャットツールを使う、Googleではトピックやログを⾃動収集するボットも使⽤ l ライブドキュメント:関係者が誰でも読み書きできる掲⽰板、Google Docsなど l 明確な引き継ぎ:誰もがわかるように、内容と業務を明確に引き継ぐ l インシデントレスポンスのベストプラクティス l 優先順位:⽌⾎、回復、証拠保全 l 準備:インシデントレスポンス⼿順の標準化と⽂書化、トレーニング l 信頼:対応チームメンバーへの信頼と委任 l 内省:パニックになる前に、⽀援を依頼する l 選択肢の考慮:定期的に選択肢を再検討する l 演習:⾃然に体が動くまで演習を⾏う l 役割交代:すべてのメンバーがすべての役割をこなせるように、都度役割は交代する 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 21
  • 22. ⽂書化⼤事 l 優秀なエンジニアは、ドキュメント化しなければなら ない l 知識と技術を暗黙知から、共有し活⽤される知識に変 えるのがドキュメント化 l Postmortemだけでなく、チェックリストやマニュアル など、常にレビュー/アップデートが⾏われる l そのためのミーティングも重視されている l 記録するだけでなく、検索や集計など再利⽤できるこ とが重要 l 勘と度胸の運⽤ではなく、計測とデータによる運⽤ 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 22
  • 23. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 23
  • 24. DevOpsとは l 「DevOpsとは開発と運⽤が協⼒し、ビジネスリスク を軽減する」 l http://www.publickey1.jp/blog/11/devops.html l 初出は、2009年に⾏われた「Velocity 2009」というイ ベントでFlickrのスタッフが⾏ったプレゼンテーション 「10 deploys per day : Dev&Ops cooperation at Flickr」らしい。(https://ja.wikipedia.org/wiki/DevOps) l http://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and- ops-cooperation-at-flickr l この時点では、GoogleはSREを始めて既に6年経過し ていたが、対外的な積極的発信はしていなかった 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 24
  • 25. 「10 deploys per day」から引⽤ DevOpsとは、 1. ⾃動化されたインフラ 2. 共有バージョン管理 3. ワンステップビルドとデプロイ 4. 機能フラグによるリリース機能制 限 5. DevとOpsの共有メトリクス 6. IRCとIMロボット ⽂化 1. 尊敬 2. 信頼 3. 障害への健全な姿勢 4. ⼈のせいにしない 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 25
  • 26. SREにあって、DevOpsにないもの l ⽂書化 l コミュニケーション l レビュー l エラーバジェットやPRR、Postmotern、ICSなどの仕 組み 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 26
  • 27. シスアド vs DevOps vs SRE? l シスアド:何らかの⽬的のためにシステムを設計、構 築、正常運転維持、予防保全を⾏う l DevOps:同上 l SRE:同上 l 違いは対象とするもの l シスアド:⼀度構築したら⼤きな変化はないシステム l DevOps:常に迅速な変化が要求されるシステム l SRE:Google 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 27
  • 28. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 28
  • 30. Googleネットワーク l グローバルSDN WAN l 内製HW/SW l Tb/sのセンター間通信、約900Gb/sのパブリック接続 l 世界第3位のISP 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 30 http://postd.cc/how-google-invented- an-amazing-datacenter-network- only-they-could-create/ http://www.slideshare.net/oraccha/a- look-inside-googles-data-center- networks
  • 31. Googleハードウェア l もしかすると世界最⼤のコンピュータメーカー? l OCP(Open Compute Project)にも参加 l サーバー、ストレージ、スイッチ、ルーター l 量⼦コンピュータ、TFカスタムチップ l 携帯、⾞、メガネ、ロケット? 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 31 OCPサーバー
  • 32. Googleソフトウェア l Linuxベースの独⾃OS l MapReduceをはじめとする独⾃MW、ツールで統⼀さ れた単⼀環境 l Android、Chrome l その他Kubernetes、TensorFlowなどOSS 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 32
  • 33. Googleスケール l 2015年度 l 売上⾼$74,541M l 営業利益$23,425M l 営業利益率31% l 従業員数約6万⼈ l 従業員あたり営業利益$390K l 全世界84オフィス l Fortune500の売上⾼94位 l IBM 84位、ソフトバンク92位 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 33 http://toyokeizai.net/articles/-/64182?page=2
  • 34. ⽇本のエンタープライズ環境 l スケール:多くて2,000 - 3,000台のサーバ l SW/HW/NW:各ベンダーから調達、異種混在環境 l 体制:システム部 -> システム⼦会社 -> Sier -> 2次請 -> 以下⾃粛 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 34
  • 36. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 36
  • 37. エンタープライズIT l 広告/ゲーム/Web系とは別世界 l 変化しないシステムと変化するシステムの両極分化 l 情報システム部⾨無⽤論 l 全体的にも、変化速度がゆっくりと増えて⾏く l 古い酒を新しい器に⼊れるような仕事が増える l 複雑さが増し、従来の運⽤は破綻する l しかし予算は減らされる 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 37
  • 40. ヒヤリングシート例 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 40
  • 41. ⾃動化の鍵:ワークフロー制御 l ⼈間判断フロー:Enhydra Shark l 承認、指⽰など各ステークホルダが⼊⼒ l プログラム制御:JobScheduler l エラー制御、分岐判断のロジックを記述 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 41
  • 42. 今やるべき事:経営陣 l 今から5年は、IT技術⼤変⾰期 l 今までの技術停滞期に合わせた体制では、 破綻する l 変⾰期に合わせた⼈員配分と組織編成を 再考するべき 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 42
  • 44. 今やるべき事:現場 l 転職活動 l 開発部⾨も運⽤部⾨も l Excel/Word/Powerpointの⼿順書はコード化 l コード化すれば、ドキュメントを⽣成する⽅法はある l コーディング/レビュー/テストを、運⽤と開発で 共通化標準化 l 計測し、記録し、⽂書化し、共有知化する仕組 みを作る l 記録するだけでなく、検索や集計など再利⽤できることが重要 l 勘と度胸の運⽤ではなく、計測とデータによる運⽤ 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 44
  • 46. 参考資料 l Site Reliability Engineering - How Google Runs Production Systems l https://www.amazon.co.jp/Site-Reliability-Engineering-Production-Systems/dp/149192912X l クラウドを⽀える技術 ―データセンターサイズのマシン設計法⼊⾨ l https://www.amazon.co.jp/%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B%E6% 8A%80%E8%A1%93- %E2%80%95%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC%E3%82%B5%E3%82%A4%E3 %82%BA%E3%81%AE%E3%83%9E%E3%82%B7%E3%83%B3%E8%A8%AD%E8%A8%88%E6%B3%95%E5%85%A5%E9%96%80-WEB- PRESS-plus/dp/4774167304/ref=sr_1_sc_2?ie=UTF8&qid=1468737268&sr=8-2-spell&keywords=datacenter+as+acomputer l What is ‘Site Reliability Engineering’? l https://landing.google.com/sre/interview/ben-treynor.html l Keys to SRE Presentation by Ben Treynor @ SREcon14 l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre l How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16 l https://youtu.be/H4vMcD7zKM0 l Love DevOps? Wait 'till you meet SRE l https://www.atlassian.com/it-service/site-reliability-engineering-sre l Hiring Site Reliability Engineers l https://www.usenix.org/system/files/login/articles/login_june_07_jones.pdf l The Systems Engineering Side of SiteReliability Engineering l https://www.usenix.org/system/files/login/articles/login_june_08_hixson.pdf l Weathering the Unexpected l http://delivery.acm.org/10.1145/2380000/2371516/p30-krishnan.pdf l Borg, Omega, and Kubernetes l http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/44843.pdf 2016/7/24 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 46