10. Our Menu
알람 룰 만들기 Create Alarm Rule
알람 리스트
Alarm list
알람 룰 리스트
Alarm Rule list
Alarm Rule
Detail
Alarm Detail
통계
Statistics
모든 알람의 요약 및
통계를 보고 빠르게
전체 상황을 파악
알람을 확인&검색
하거나 각 알람 별
디테일을 확인
만들어진 알람 룰의
디테일을 확인하거나
룰을 수정
13. TO-BE
Why do weneed machine learning?
많은 기기의 다양한 상태를 이런식으로 관
리하기가 어려워 machine learning을 통해
서 이를 분석하고 그에 따른 적절한 모델을
적용함으써보다 쉽고 빠르게 더 상세한 감
시를 할 수 있음
AS-IS
기준 범위를 지정하고 그 범위를 벗
어나면 이상 상태로 판단하지만, 좀
더 상세한 감시가 필요해짐에 따라
시간을 분할하여 이를 각각 범위를
설정하여 판단함
설비의 상태나 환경이 일부 변할때
마다 이러한 일이 반복적으로 일어나
게 됨
14. TO-BEAS-IS
Why do we need machine learning?
큰 문제가 발생한 이후에 그에 대한
대처를 수행함으로써 실제로 문제가
발생하게 됨.
이러한 문제의 발생 자체를 막고자
하는 니즈가 있음
상세한 분석을 통해 데이타의 오류 형태
등으로 전조현상을 발견하고, 미리 오류를
발견함으로 선재적 대응이 가능함
15. How machine learning worksin
1. 정답 없이 사용가능한 Unsupervised Learning 사용
3. All-in-one solution 제공
2.Druid를 사용하여 분석환경을 별개로 구성할 필요없음
4.사이언티스트가 없이도 시스템에서 자동 모델 제안
Scientist
17. 재학습(Re-Learning)
데이터가 달라져서
모델 정확도가 떨어지는 현상이 발생
재학습이 필요한 이유 Data Science Lifecycle
데이터 확인 → 학습 (machine learning) → 이상 탐지 → 원인 분석 → Feedback
재학습 (machine learning) → 보다 정확한 이상 탐지
23. Use case
case 1
각 measure 별로 독립적으로 발생함.
각 value 별로 training 하고 예측을 수행함으로써
이상 징후를 발견한다.
case 2 :
각 measure가 같은 패턴으로 발생함.
같은 measure끼리 비교하여 차이점을 찾음으로써
이상 징후를 발견한다.
30. 시스템 구조
Client Server Druid
Alarm
rule page
Query
generate
Data
process
Alarm
notice
Predict
train
Predict
evaluatio
n
Anomaly
score
Anomaly
detect
Alarm
schedule
Data
process
Alarm
page
Alarm
History
Data
process
1 2
34
1
2
3
1
4
2
3
Predict
evaluatio
nModel
manage
Select
model
31. 외부 분석 연계(notebook)
Client Server Druid
Alarm
rule page
Query
generate
Data
process
Alarm
schedule
1 2
36
zeppelin
Predict
training
Anomaly
detect
Model
manage
4
5
Predict
evaluatio
n
32. 외부 분석 연계(metatron-stream)
Client Server
Metatron-
stream
Alarm
rule page
Query
generate
Data
process
Alarm
notice
Predict
training
Predict
evaluatio
n
Anomaly
score
Anomaly
detect
Alarm
schedule
Data
process
Alarm
page
Alarm
History
Data
process
1 2
34
1
2
3
1
4
2
3
Model
manage
Druid
33. Predict
evaluati
on
Alarm Rule Create Process
Select Data Source Select Measure Auto Model training & Recommend
Adjust Alarm Threshold Complete Alarm Rule
35. 시스템 구조
Client Server Druid
Alarm
rule page
Data
process
Alarm
notice
Predict
train
Predict
evaluatio
n
Anomaly
score
Anomaly
detect
Alarm
schedule
Data
process
Alarm
page
Alarm
History
Data
process
1 2
34
1
2
3
1
4
2
3
Predict
evaluatio
nModel
manage
Recommend
model
38. Processchange for alarm
Druid Egads
Predict
train
Predict
evaluatio
n
Target
Data
1
2
3Predict
Data
Druid Egads
Predict
train
Training
Data
1
2
3*
4*
Predict
evaluatio
nPredict
Data
Evaluate
Data
Trained
Model
세상에는 참 많은 데이타들이 발생되고 있고 그 양이 점점 더 늘어나고 있다.
이러한 데이타를 활용해서 정말 다양한 일들을 하고 있는 데 그중에 대표적인 것들중 하나가 관제(모니터링?)이다.
서비스, 서버, 보안, 장비 등이 정상적으로 동작하고 있는지 모니터링하고 이상현상이 발생하면 이를 확인하여 문제를 해결하는 것이다.
이러한 일들은 그 대상의 범위가 점점 넓어지고 있으며 그 크기(?)도 커지고 있다.
그래서 이를 사람이 일일이 확인할 수 없어 시스템을 구축하고 이를 기반으로 운영을 하게 된다.
그런데 이런 대상 데이타가 점점 커지면서 big data에 대한 (빠른) 처리가 요구되고
좀더 빠른 확인을 위해서 realtime data(와 빠른 응답)에 대한 기능이 요구되고
보다 정교한 상태 판단(이상판단)을 위해서 machine learning 필요해졌다.
그래서 big data, realtime을 기반한 machine learning anomaly detection system인 metatron-anomaly를 만들게 되었다.
사이언티스트의 부재, 정답 데이타 생성의 어려움, 큰 데이타에 대한 분석의 어려움, 분석 환경 구성의 비용, 운영 환경으로의 적용의 어려움 등 다양한 이유로 이를 실환경에 적용하기가 어려웠다.
그리하여 metatron anomaly는
시계열 기반 예측 알고리즘을 활용하여 unsupervised learning을 수행하기 때문에 정답 데이타 생성 필요성이 없다. 그래서 원본 데이타에 바로 learning을 수행할 수 있다.
다양한 알고리즘을 자동으로 학습한 후 최적의 모델을 제안함으로 현업 담당자가 직접 machine learning을 수행할 수 있다.
druid 기반의 분석 엔진에 embed하여 알고리즘을 수행함으로써 큰 데이타에 대해도 추가적인 관리나 이관 등과 같은 이슈 없이 수행할 수 있다.
운영 환경에 바로 학습과 적용을 바로 수행할 수 있어별도의 분석 환경 구축이나 개발이후의 실적용을 위한 작업이 필요없다.
machine learning에 기반한 서비스의 경우 시간의 경과나 환경의 변화 등으로 이전에 학습해 놓은 모텔의 정확도가 점점 떨어지는 현상이 발생하게 된다.
이런 경우 앞서 이야기 했던 것과 같이 다시 학습 대상을 선정하고 그 대한 정답 데이타를 만들고 다시 학습을 수행한 이후 운영에 적용하는 단계를 또 수행해야한다.
환경의 변경이 빈번하거나 학습까지의 시간의 많이 걸리는 경우 실재로 운영이 동작하는 기간이 얼마되지 않는 경우도 많이 있다.
아래와 같이 분석 사이클을 제공하여 모델의 정확도를 안정적으로 유지, 관리할 수 있다.
데이타의 확인 -> 학습 (machine learning) -> 이상 탐지 -> 원인 분석 -> feedback -> 재학습 (machine learning) -> 보다 정확한 이상탐지
metatron-anomaly는 realtime big data engine인 metatron-engine(druid)를 기반으로 다양한 timeserise machine leaning 기법들과 쉬운 사용성을 제공함으로써 큰 데이타에 대해서 빠르고 사용하기 쉬운 machine learning 관제 솔루션입니다.
큰 3개의 꼭지 : machine learning, alarm management, big data analyze
초록 : 머신러닝
빨강 : 데이터 프로세스(druid)
회색 : 프론트
노랑 : 서버
초록 : 머신러닝
빨강 : 데이터 프로세스(druid)
회색 : 프론트
노랑 : 서버
어떻게 동작하는가?
어떻게 만들었는가?
Metatron anomaly > druid > extension/druid-egads > egads > openforecast
trainig function과 evaluate function을 구분
anomaly에 대한 판단을 외부에서 구현
모델을 관리하여 모델의 상태 및 parameter 변경 가능
기존의 동작 방식은 후처리 분석에 특화되어 있는 방식으로 training 과 evaluate를 구분하지 않고
한번에 수행하여 대상 데이타의 특이점을 확인하는 방식이었다.
하지만 이렇게 하면 매번 training을 수행하는 비용도 발생할 뿐만 아니라
정상으로 training하고 신규 데이타에 대해서 evaluate하는 방식을 적용할 수 없다.