Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

SRENEXT 2020 [B5] New RelicのSREに学ぶ SREのためのNew Relic活用法

211 vues

Publié le

SRENEXT 2020 [B5]のセッション資料です。

Publié dans : Technologie
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

SRENEXT 2020 [B5] New RelicのSREに学ぶ SREのためのNew Relic活用法

  1. 1. ©2008–19 New Relic, Inc. All rights reserved [B5] New RelicのSREに学ぶ SREのためのNew Relic活用法 New Relic株式会社 シニアテクニカルサポートエンジニア ⽥中 孝佳 #srenext #srenextB #newrelic
  2. 2. ©2008–19 New Relic, Inc. All rights reserved 2 Safe Harbor This presentation and the information herein (including any information that may be incorporated by reference) is provided for informational purposes only and should not be construed as an offer, commitment, promise or obligation on behalf of New Relic, Inc. (“New Relic”) to sell securities or deliver any product, material, code, functionality, or other feature. Any information provided hereby is proprietary to New Relic and may not be replicated or disclosed without New Relic’s express written permission. Such information may contain forward-looking statements within the meaning of federal securities laws. Any statement that is not a historical fact or refers to expectations, projections, future plans, objectives, estimates, goals, or other characterizations of future events is a forward-looking statement. These forward- looking statements can often be identified as such because the context of the statement will include words such as “believes,” “anticipates,” “expects” or words of similar import. Actual results may differ materially from those expressed in these forward-looking statements, which speak only as of the date hereof, and are subject to change at any time without notice. Existing and prospective investors, customers and other third parties transacting business with New Relic are cautioned not to place undue reliance on this forward-looking information. The achievement or success of the matters covered by such forward-looking statements are based on New Relic’s current assumptions, expectations, and beliefs and are subject to substantial risks, uncertainties, assumptions, and changes in circumstances that may cause the actual results, performance, or achievements to differ materially from those expressed or implied in any forward-looking statement. Further information on factors that could affect such forward-looking statements is included in the filings New Relic makes with the SEC from time to time. Copies of these documents may be obtained by visiting New Relic’s Investor Relations website at ir.newrelic.com or the SEC’s website at www.sec.gov. New Relic assumes no obligation and does not intend to update these forward-looking statements, except as required by law. New Relic makes no warranties, expressed or implied, in this presentation or otherwise, with respect to the information provided.
  3. 3. ©2008–19 New Relic, Inc. All rights reserved ⾃⼰紹介 3 現職: シニアテクニカルサポートエンジニア New Relicは⽇本の拠点で、⽇本語により、テクニカルサポートを⾏なっています 経歴: Java, C#, Rubyなどを使ったシステムの研究開発や運⽤業務 AWS, Windows IIS, ASP.NET 環境でのソーシャルゲーム開発運⽤ Azure上でのRHELやOpenShiftおよび.NET Coreのテクニカルサポート C#, Azureを中⼼にコミュニティ勉強会への登壇やブログ執筆 (Microsoft MVP 7年受賞中)
  4. 4. ©2008–19 New Relic, Inc. All rights reserved チーム プラクティス アーキテ クチャ 今日お話しする割合
  5. 5. ©2008–19 New Relic, Inc. All rights reserved 本セッションの内容 5 New Relic SREのチームはどうなっているか New Relic SREがやっているプラクティス New Relic のアーキテクチャはどうなっているか 多数の製品を抱えるSaaSの今を簡単にご紹介 SREの⼀⽇や、障害対応など簡単にご紹介 Game Dayといった取り組みから どのようにNew Relicを使っているかをご紹介
  6. 6. New Relicの アーキテクチャ
  7. 7. ©2008–19 New Relic, Inc. All rights reserved#FUTURESTACK New Relicの今昔 7 現在当初 New Relic のアラートと ダッシュボードを活⽤︕ Ruby のモノリシック アプリ サイロ化したチーム 頻繁でないリリース リアクティブな モニタリング 300以上の マイクロサービス 50以上のSREが 内包された開発チーム 1⽇に20-70デプロイ 1分間に20億のイベントと メトリックを取り込み
  8. 8. ©2008–19 New Relic, Inc. All rights reserved
  9. 9. ©2008–19 New Relic, Inc. All rights reserved NRDB 9 New Relicサービスを⽀えるデータベース 毎分20億のイベント・メトリクス挿⼊、1兆のイベントに対しクエリ実⾏
  10. 10. Data Pipelines NRDB 各製品 データーパイプライン 共通UI プログラマブルUI (React Component) GraphQL, NRQL 各製品のAgent ログ カスタムイベント (OpenTelemetryや Prometheus含む) etc kafka cluster
  11. 11. Kafka クラスター 90ブローカー、毎秒1500万メッセージ (3年前実績) https://www.confluent.io/kafka-summit-sf17/From-Scaling-Nightmare-to-Stream-Dream-Real-time-Stream- Processing-at-Scale/ Sourcetopic Resulttopic Split Match Aggregate kafka kafka Queries
  12. 12. New Relic SREの チーム
  13. 13. ©2008–19 New Relic, Inc. All rights reserved New Relic SREのチーム • 開発者 +500 • SRE +50 How New Relic built its latest product in just six weeks https://diginomica.com/new-relic-built-latest-product-six-weeks • 障害検知はほぼ全てNew Relicを監視しているNew Relicからのアラート New Relic Alert Conditionを使い始めるためのベストプラクティス https://blog.newrelic.co.jp/best-practices/best-practices-new-relic-alert-conditions/ SREやDevOpsチームでのアラート疲れの5つのよくある原因 https://blog.newrelic.co.jp/engineering/alert-fatigue-sources/
  14. 14. ©2008–19 New Relic, Inc. All rights reserved New Relicでの実際の障害対応 14 アラートで検知する ほぼ全ての障害を内部で検知し、対応に移る SREが障害対応を主導する • 主張に根拠を与える • 共通理解を与える • 仮説を⽴てる • 仮説を検証する 役割を定義する • インシデント司令官 • 技術リーダー • コミュニケーションリード • コミュニケーションマネージャー https://blog.newrelic.com/engineering/on-call-and- incident-response-new-relic-best-practices/ インシデントの重要度を設定する
  15. 15. ©2008–19 New Relic, Inc. All rights reserved New Relic SREの一日 https://blog.newrelic.com/engineering/what- does-an-sre-do/ • 意外と会議が多い • 意外とたくさんのタスクを並行してる • MMF(最小市場価値)の一環で エンジニアとペアを組み コードも追いかけている コーヒー飲みながらメールチェック 8:00 CoreOS COP Kafka Upgrade ランチ、同僚の相談に乗る 緊急MMF会議 キャパシティ計画会議 12:00 フロントエンドエンジニアとMMF (Reactのコード) リスクマトリクス会議 MMFの続き Kafka Upgradeの確認など 17:30
  16. 16. New Relic SREの プラクティス
  17. 17. ©2008–19 New Relic, Inc. All rights reserved “⽕について学ぶ”、 その最⾼のタイミングはまさに ”⽕がついている”ときです。 17 Jen Hammond, New Relic Engineering Manager
  18. 18. ©2008–19 New Relic, Inc. All rights reserved Game day 18
  19. 19. ©2008–19 New Relic, Inc. All rights reserved Game Day とは 19 AWS Well-Architected Frameworkによると 「システムやプロセス、チームの対応をテストするために失敗やイベントを シミュレートすること」 https://wa.aws.amazon.com/wat.concept.gameday.en.html SRE として Adversarial Game Day (敵性ゲームデイ) を⾏う⽅法 https://blog.newrelic.co.jp/best-practices/how-to-run-a-game-day/ New Relicのサイト信頼性ベストプラクティスの一つ https://newrelic.com/resource/site-reliability-engineering SLOを上回っている場合最低四半期に⼀度、 あるいは新しいメンバーのオンボーディングにも利⽤ リモートでの参加者を含めることも意義がある
  20. 20. ©2008–19 New Relic, Inc. All rights reserved 敵性Game Dayの企画の⼀例 • ⽬的を明確にする • 攻撃側と対応側にチームを分ける • 攻撃側 • 攻撃⼿順を作成する • 影響範囲を想定しておく • 対応策を想定しておく • 対応側 • 参加者、実施⽇を決めておく • フォローアップ • 想定した対応策、影響範囲が正しかったか確認 • New Relicの画⾯に現れたシステムの挙動を記録しておく
  21. 21. ©2008–19 New Relic, Inc. All rights reserved 具体的にどのように見ているのか • 性能劣化の根本原因を短時間で究明する • APMの使い⽅ • 分散システムの把握 • Distributed Tracing • SLOの⾒える化 • SLO Reporter by Synthetics • 構成管理の完全把握 • Config Management by Infrastructure
  22. 22. ©2008–19 New Relic, Inc. All rights reserved 分散システムも⼀つ⼀つのアプリから 22 フロントエンド BrowserおよびMobile APM それぞれのアプリに APM Agentを⼊れるだけ アプリ間の繋がり トラフィックを⾃動で検出 Database RDBMSやRedis, Memcached などもAPMから計測可能
  23. 23. ©2008–19 New Relic, Inc. All rights reserved コードレベルの特定 どのメソッドが遅いか コードの⾏番号まで特定可能
  24. 24. ©2008–19 New Relic, Inc. All rights reserved クエリレベルの特定 クエリの統計 遅い呼び出しが1回あるのか 回数が多くて遅延しているのか
  25. 25. ©2008–19 New Relic, Inc. All rights reserved 特定のリクストの繋がりを把握する 28 App A App X App B App Y App C App Z HTTP gRPC Queue
  26. 26. フィルター 時間やエラー数、アプリ数で フィルタ可能 ⾊分け 最初のアプリごとに⾊分け
  27. 27. ©2008–19 New Relic, Inc. All rights reserved
  28. 28. ©2008–19 New Relic, Inc. All rights reserved SLO Reporter 指定したSLIをSLOとしてアプリごとに可視化するダッシュボードツール https://github.com/newrelic/nr1-slo-r
  29. 29. ©2008–19 New Relic, Inc. All rights reserved NRQLを使ったError Budget Reportチャート 33
  30. 30. ©2008–19 New Relic, Inc. All rights reserved SyntheticsでSLA/SLOを計測 34 URLを⼊れるだけ スクリプト SeleniumによるBrowser操作 や、APIのスクリプト実⾏ Location 発信元は選ぶだけ private minion 内部ネットワークでも 計測可能
  31. 31. ©2008–19 New Relic, Inc. All rights reserved Config Managementの確認のためにInfrastructure 35
  32. 32. ©2008–19 New Relic, Inc. All rights reserved まとめ 36 New Relic SREのチームはどうなっているか New Relic SREがやっているプラクティス New Relic のアーキテクチャはどうなっているか 様々なデータをパイプライン処理するKafka ⼤量のデータを保存するNRDB アラート、障害対応のポリシー。SREの⼀⽇。 Game Day New Relic各製品を使い⽅の⼀例
  33. 33. ©2008–19 New Relic, Inc. All rights reserved 37 Selfie Drone ROOM B 出口すぐ New Relic Booth SRE Dashboard CTO Solution Consultant Customer Success Manager Solution Consultant 松本 大樹 清水 毅 大谷 和紀 斎藤 恒太 アンケートに答えていただくと 抽選で Selfie Drone 当たります。 SRE がみるべき指標をまとめた New Relic ダッシュボード。
  34. 34. ©2008–19 New Relic, Inc. All rights reserved こんなキーワードが気になったらブースへ 38 kubernetes (Istio, Prometheus) kubernetes監視のための専⽤ダッシュボード IstioやPrometheusなどのOSS製品で取得したメトリクスの可視化 リアルユーザーモニタリング(Browser, Mobile) ログ収集、監視、APMとログの連携(Logs in Context) パブリッククラウド、クラウド移⾏ OpenTracing, OpenTelemetry, Zipkin APMの分散トレーシングやエラーに関連するログの分析を容易に
  35. 35. ©2008–19 New Relic, Inc. All rights reserved https://newrelic.co.jp/events/meetup/observability-meetup-3
  36. 36. ©2008–19 New Relic, Inc. All rights reserved 40 New Relic University ハンズオンセミナー開催スケジュール 2.6 障害対応高速化 (初級) ¦ 渋谷 2.25 障害対応高速化 (初級) ¦ 東京 3.17 障害対応高速化 (初級) ¦ 渋谷 3.3 レガシーアプリ高速化 (中級) ¦ 六本木 https://newrelic.co.jp/events/seminar/nru-20200206 https://newrelic.co.jp/events/seminar/nru-20200225 調整中 https://newrelic.co.jp/events/seminar/nru-20200317
  37. 37. ©2008–19 New Relic, Inc. All rights reserved 41 New Relic で実践する SRE 開催スケジュール New Relic で実践する SRE 近年、システム運用に関わる多くの方々がSRE(Site Reliability Engineering)に関心を持っています。しかし、SREがどんなも ので何をすればいいのかわからないとお伺いすることも増え ました。今回我々が考えるSREについておさらいとしてご紹介 させていただきながら、New Relicを使ったらどのようにSREを 実践していけるのか。その実践に向けたNew Relicの使い方を ご紹介していきます。 Senior Solution Consultant 清水 毅 https://newrelic.co.jp/events /seminar/20200218-sre https://newrelic.co.jp/events /seminar/20200311-sre 2.18 開催 3.11 開催
  38. 38. ©2008–19 New Relic, Inc. All rights reserved ttanaka@newrelic.com @tanaka_733 Thank You

×