SlideShare une entreprise Scribd logo
1  sur  35
Télécharger pour lire hors ligne
自律的運用に向けた第一歩
   〜運用現場にあふれる情報をデータ化し
機械的に学習できる状態に〜
TIS株式会社
インダストリー事業統括本部
IT基盤技術本部
IT基盤エンジニアリング第 1部
池田 大輔
July Tech Festa 2018 [29 July 2018]
自己紹介
TIS株式会社
IT基盤エンジニアリング第 1部 所属
 い け だ       だ い す け     
池田 大輔
R&D部門での活動(社内システム運用とかやりつつ)を経て
OSSサポートビジネスのサポートエンジニア・プリセールス・マーケティングを実施。
現在は、システム運用改善を支援するためのサービス企画開発中
その他、Zabbixの書籍執筆等実施。
2@ike_dai ikedai ike-dai ike_dai
ITシステムの保守運用に
「人」は必要ですか?
3
保守運用作業
定型
Standard
非定型
Non-standard
定期
Regularly
不定期
Irregularly
定期実行バッチジョブ
監視検知による自動復旧処理
監視検知後、
状況確認し作業手順実行
セキュリティチェック&対策
月次バージョンアップ対応
障害調査&対応
障害予防対策
4
保守運用作業
定型
Standard
非定型
Non-standard
定期
Regularly
不定期
Irregularly
定期実行バッチジョブ
監視検知による自動復旧処理
監視検知後、
状況確認し作業手順実行
セキュリティチェック&対策
月次バージョンアップ対応
障害調査&対応
障害予防対策
運用管理系ツールの高機能化
PaaS/SaaSによる吸収
5
保守運用作業
定型
Standard
非定型
Non-standard
定期
Regularly
不定期
Irregularly
定期実行バッチジョブ
監視検知による自動復旧処理
監視検知後、
状況確認し作業手順実行
セキュリティチェック&対策
月次バージョンアップ対応
障害調査&対応
障害予防対策
課題はここ
6
自分がor自分たちのチームが
未知のことへの対処が必要な現場
では人をなくすことはできない
7
自分がor自分たちのチームが
未知のことへの対処が必要な現場
では人をなくすことはできない
8
1. 運用現場の定性的感覚を定量的に
2. より多くの運用現場の情報を共有
This is OpsBear big concept!
9
Case1 : Nginx error log
10
2018/07/20 14:20:00 ...(24: Too many open files) while accepting new connection...
$ ulimit -n
1024
$ cat /proc/sys/fs/file-max
816063
$ vi /etc/systemd/system/nginx.service.d/limits.conf
[Service]
LimitNOFILE=10000
$ systemctl daemon-reload
$ systemctl restart nginx.service
このような対応を行う可能性が xx%
Case2 : Zabbix Tuning
11
$ vi /etc/zabbix/zabbix_server.conf
StartPollers=20
Zabbix Pollerのbusy率が上昇 Zabbixの監視項目数が上昇
Zabbix Server全体の
CPU使用率には余裕あり
このような対応を行う可能性が xx%
定性的から定量的に
From Qualitative to Quantitative
12
13
運用現場にあふれる情報
・監視データ
・バッチジョブの処理結果情報
・種々なログ情報
・システム構成情報
・チケット情報
・利用者からの問い合わせ情報
・インターネット上の公開情報
・ベンダーからの提供情報
監視データ
14
集めているデータは定量的でも...
一時的にバーストしているだけのようだ
監視データ
15
このようなデータの残し方になっている
ケースも多いのでは?
監視データ
16
判断に必要となることを特徴量として定量的に残す
・平均値
・最大値
・最小値
・中央値
・回帰係数
・移動平均値
 等
17
システム構成情報
サーバ構成
No ホスト名 IPアドレス OS 備考
1 web-server-01 192.168.111.11 RHEL7.3 web-server-02とのAct-Standby構成
2 web-server-02 192.168.111.12 RHEL7.3 web-server-01とのAct-Standby構成
3 db-server-01 192.168.111.31 RHEL7.3 db-server-02とのAct-Act(ReadReplica)構成
4 db-server-02 192.168.111.32 RHEL7.3 db-server-01とのAct-Act(ReadReplica)構成
5 db-lb-server-01 192.168.111.21 CentOS7 db-lb-server-02とのAct-Act構成
6 db-lb-server-02 192.168.111.22 CentOS7 db-lb-server-01とのAct-Act構成
SW/MW構成
No. ホスト SW/MW バージョン
1 web-server-01
web-server-02
nginx 1.14.0
2 pacemaker 1.1.18
3 zabbix-agent 3.0.19
4 db-server-01
db-server-02
PostgreSQL 9.6.5
5 JobScheduler Agent 1.12.0
これでは関係性とか評価が難しい ...
たとえ、構成を図で表現されていたとしても ...
18
システム構成情報
CMDBuild等の構成管理ツール
19
システム構成情報
Terraformの定義情報と構成グラフ
variable "count" {default = 2}
variable "hostnames" {
default = {
"0" = "example1.org"
"1" = "example2.net"
}
}
data "template_file" "web_init" {
count = "${length(var.hostnames)}"
template ="${file("templates/web_init.tpl")}"
vars {
hostname ="${var.hostnames[count.index]}"
}
}
resource "aws_instance" "web" {
count = "${length(var.hostnames)}"
user_data = "${data.template_file.web_init.*.rendered[count.index]}"
}
terraform graphコマンド
20
システム構成情報
グラフDBに着目
・構成をより自然な形で管理できる
・構成の特徴となる様々なデータを定量的に扱うことができる
Service Cに経路が集中して重要度が高そうだ
21
システム構成情報
ノードグラフから媒介中心性を求めるクエリ(Neo4j cypher)
MATCH p = allShortestPaths((p1:Service)-[:connect*]-(p2:Service))
WHERE id(p1) < id(p2) AND length(p) > 1
UNWIND nodes(p)[1..-1] AS n
RETURN n, count(*) AS betweeness
ORDER BY betweeness DESC
n betweeness
Service C 5
Service B 3
Service A 3
それぞれの定量化を行うことで、システム全体の定量化ができ
システムに対して行われる対処と状態を機械的に紐づけて管理していくことができるのではないか
状態の定量化
サーバA
CPU使用率
平均
サーバA
CPU使用率
最大値
サーバAが
ホスト1で稼働
しているか
サーバAに
Nginxが
入っているか
サーバAの
Nginxの
バージョンがx系か
サーバAの
Nginxの
エラーログ発生数
サーバAの
経路重要度 ・・・
xx時間以内に実
行する対応
45 56 1 1 0 120 4.5 ・・・ 対応A
31 34 1 1 1 90 3.1 ・・・ 対応C
23 89 0 1 0 1 6.8 ・・・ 対応B
・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・
22
共有を目指して
For to go toward the state of Sharing
23
Dashboard
24
データ集約基盤の提供
Core API
(Events & Config management)
Collector
Zabbix
Collector
ConfDiff
Collector
Command
Collector
・・・
Analyzer
Dashboard
25
データ集約基盤の提供
Core API
(Events & Config management)
Collector
Zabbix
Collector
ConfDiff
Collector
Command
Collector
・・・
Analyzer
Zabbix
Linux Server
監視統計データ集約
監視構成情報集約
設定パラメータ
コマンドヒストリ
設定パラメータ変更情報集約
コマンド実行情報集約
26
OpsBear(仮)
・OSS化も視野に検討・開発中
・既存の有用なツールとの連携を軸に
・運用情報同士を紐づける基盤に
運用対応策のレコメンド
運用イベント集約
27
イベントと紐づけた構成管理
28
構成変更の管理
29
監視統計データの確認
30
オペレーションの実行
31
設定パラメータの検索確認
32
データ収集しつつ
「ある状態の時」に
「どういう対処を行う」可能性が
高いか?
分析検証中
33
・プロトタイプレベルでも試してみたいという方
・一緒に作ってみたいという方
・一緒に意見出し合い検討してみたい方
34
協力者募集
TIS株式会社 池田まで
Thank you
35Presentation template by SlidesCarnival

Contenu connexe

Similaire à Jtf2018 自律的運用に向けた第一歩

第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様
Tae Yoshida
 

Similaire à Jtf2018 自律的運用に向けた第一歩 (20)

Jmug#004
Jmug#004Jmug#004
Jmug#004
 
Jmug#004
Jmug#004Jmug#004
Jmug#004
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
IT業界理解お助け資料V2.0
IT業界理解お助け資料V2.0IT業界理解お助け資料V2.0
IT業界理解お助け資料V2.0
 
20201023 Builders Box 2nd Enterprise Architect
20201023 Builders Box 2nd Enterprise Architect20201023 Builders Box 2nd Enterprise Architect
20201023 Builders Box 2nd Enterprise Architect
 
IoTとAIが牽引するエンタープライズシステムの新展開
IoTとAIが牽引するエンタープライズシステムの新展開IoTとAIが牽引するエンタープライズシステムの新展開
IoTとAIが牽引するエンタープライズシステムの新展開
 
TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介TIS 戦略技術センター AI技術推進室紹介
TIS 戦略技術センター AI技術推進室紹介
 
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
 
Machine learningbootstrap For Business
Machine learningbootstrap For BusinessMachine learningbootstrap For Business
Machine learningbootstrap For Business
 
クラウド時代を生きぬくためのITエンジニアとシステムインテグレータのOSS活用!
クラウド時代を生きぬくためのITエンジニアとシステムインテグレータのOSS活用!クラウド時代を生きぬくためのITエンジニアとシステムインテグレータのOSS活用!
クラウド時代を生きぬくためのITエンジニアとシステムインテグレータのOSS活用!
 
OSC2019 LT 運用レコメンドプラットフォーム開発におけるマイクロサービス構成の実現
OSC2019 LT 運用レコメンドプラットフォーム開発におけるマイクロサービス構成の実現OSC2019 LT 運用レコメンドプラットフォーム開発におけるマイクロサービス構成の実現
OSC2019 LT 運用レコメンドプラットフォーム開発におけるマイクロサービス構成の実現
 
Io taiプロジェクトの進め方、組織作り 20180208_ver1.02
Io taiプロジェクトの進め方、組織作り 20180208_ver1.02Io taiプロジェクトの進め方、組織作り 20180208_ver1.02
Io taiプロジェクトの進め方、組織作り 20180208_ver1.02
 
ビフォーアフターで学ぶ データビジュアライゼーションの基本
ビフォーアフターで学ぶ データビジュアライゼーションの基本ビフォーアフターで学ぶ データビジュアライゼーションの基本
ビフォーアフターで学ぶ データビジュアライゼーションの基本
 
第4回 itil講義資料
第4回 itil講義資料第4回 itil講義資料
第4回 itil講義資料
 
【Pm zen】pmはいつ学び始めるべきか? 20160311
【Pm zen】pmはいつ学び始めるべきか? 20160311【Pm zen】pmはいつ学び始めるべきか? 20160311
【Pm zen】pmはいつ学び始めるべきか? 20160311
 
『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について『ハイブリッドクラウド研究会』創立について
『ハイブリッドクラウド研究会』創立について
 
第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様第7回SIA研究会(例会)プレゼン資料 油野様
第7回SIA研究会(例会)プレゼン資料 油野様
 
ITエンジニアとして生きるということ - モチベーションの維持と学習方法
ITエンジニアとして生きるということ - モチベーションの維持と学習方法ITエンジニアとして生きるということ - モチベーションの維持と学習方法
ITエンジニアとして生きるということ - モチベーションの維持と学習方法
 
デブサミ2013【14-B-1】 3つの世界:エンタープライズ、ソーシャル/ゲーム、スタートアップ(三谷慶一郎氏)
デブサミ2013【14-B-1】 3つの世界:エンタープライズ、ソーシャル/ゲーム、スタートアップ(三谷慶一郎氏)デブサミ2013【14-B-1】 3つの世界:エンタープライズ、ソーシャル/ゲーム、スタートアップ(三谷慶一郎氏)
デブサミ2013【14-B-1】 3つの世界:エンタープライズ、ソーシャル/ゲーム、スタートアップ(三谷慶一郎氏)
 
SIerでのAI社内啓蒙の取り組み
SIerでのAI社内啓蒙の取り組みSIerでのAI社内啓蒙の取り組み
SIerでのAI社内啓蒙の取り組み
 

Plus de Daisuke Ikeda

Plus de Daisuke Ikeda (20)

AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TISAIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
 
Osc 2021 fall_tis_変化に強いチーム育成のための取り組み紹介
Osc 2021 fall_tis_変化に強いチーム育成のための取り組み紹介Osc 2021 fall_tis_変化に強いチーム育成のための取り組み紹介
Osc 2021 fall_tis_変化に強いチーム育成のための取り組み紹介
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
 
Zabbixを徹底活用してみよう ~4.2の最新情報もご紹介~
Zabbixを徹底活用してみよう ~4.2の最新情報もご紹介~Zabbixを徹底活用してみよう ~4.2の最新情報もご紹介~
Zabbixを徹底活用してみよう ~4.2の最新情報もご紹介~
 
2019/4/18 Zabbix勉強会 徹底活用本の改訂の話
2019/4/18 Zabbix勉強会 徹底活用本の改訂の話2019/4/18 Zabbix勉強会 徹底活用本の改訂の話
2019/4/18 Zabbix勉強会 徹底活用本の改訂の話
 
OSC2018Tokyo/Fall 自律的運用に向けた第一歩(OpsBear取り組み紹介)
OSC2018Tokyo/Fall 自律的運用に向けた第一歩(OpsBear取り組み紹介)OSC2018Tokyo/Fall 自律的運用に向けた第一歩(OpsBear取り組み紹介)
OSC2018Tokyo/Fall 自律的運用に向けた第一歩(OpsBear取り組み紹介)
 
保守運用現場の課題共有しませんか?-OSC2018LT-
保守運用現場の課題共有しませんか?-OSC2018LT-保守運用現場の課題共有しませんか?-OSC2018LT-
保守運用現場の課題共有しませんか?-OSC2018LT-
 
Serverspecを自分好みにアレンジ スクリーンショットで証跡保存を撲滅-
Serverspecを自分好みにアレンジ スクリーンショットで証跡保存を撲滅- Serverspecを自分好みにアレンジ スクリーンショットで証跡保存を撲滅-
Serverspecを自分好みにアレンジ スクリーンショットで証跡保存を撲滅-
 
AWS Ops系サービスが更に便利になる中、それでもなおZabbixとセットで考えたほうが良いのか?
AWS Ops系サービスが更に便利になる中、それでもなおZabbixとセットで考えたほうが良いのか?AWS Ops系サービスが更に便利になる中、それでもなおZabbixとセットで考えたほうが良いのか?
AWS Ops系サービスが更に便利になる中、それでもなおZabbixとセットで考えたほうが良いのか?
 
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
 
Tech circle bot x zabbix オペレータbot lt
Tech circle bot x zabbix オペレータbot ltTech circle bot x zabbix オペレータbot lt
Tech circle bot x zabbix オペレータbot lt
 
インフラ運用管理ツールとGolang OSS運用管理勉強会LT
インフラ運用管理ツールとGolang OSS運用管理勉強会LTインフラ運用管理ツールとGolang OSS運用管理勉強会LT
インフラ運用管理ツールとGolang OSS運用管理勉強会LT
 
Tech circle#13 zabbix3.0ハンズオン lld
Tech circle#13 zabbix3.0ハンズオン lldTech circle#13 zabbix3.0ハンズオン lld
Tech circle#13 zabbix3.0ハンズオン lld
 
Zabbix超入門
Zabbix超入門Zabbix超入門
Zabbix超入門
 
Serverspecの活用tips紹介
Serverspecの活用tips紹介Serverspecの活用tips紹介
Serverspecの活用tips紹介
 
Osc2016 tokyo sprint-jobschedulerを活用したoperations as codeの世界
Osc2016 tokyo sprint-jobschedulerを活用したoperations as codeの世界Osc2016 tokyo sprint-jobschedulerを活用したoperations as codeの世界
Osc2016 tokyo sprint-jobschedulerを活用したoperations as codeの世界
 
Job schedulerを活用したoperations as codeの世界
Job schedulerを活用したoperations as codeの世界Job schedulerを活用したoperations as codeの世界
Job schedulerを活用したoperations as codeの世界
 
Zabbix conference2015 daisukeikeda
Zabbix conference2015 daisukeikedaZabbix conference2015 daisukeikeda
Zabbix conference2015 daisukeikeda
 
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
 
2.0~2.2~2.4~3.0 zabbixの進化を紐解く zabbix便利機能紹介-
2.0~2.2~2.4~3.0  zabbixの進化を紐解く  zabbix便利機能紹介-2.0~2.2~2.4~3.0  zabbixの進化を紐解く  zabbix便利機能紹介-
2.0~2.2~2.4~3.0 zabbixの進化を紐解く zabbix便利機能紹介-
 

Dernier

Dernier (11)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

Jtf2018 自律的運用に向けた第一歩