실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기

©2022, Imply
©2022, imply
실시간 이상탐지를 위한
머신러닝에 Druid/Imply 활용하기
대용량 이벤트에 대한 ML 분석 파이프라인으로의 HighQPS Druid 적용 방안과 사례
1
이기훈 (Ken.Lee@imply.io) Senior Sales Engineer
Imply Korea
Nov 2022

©2022, Imply
목차
● 실시간 이상탐지 기술 요건
● 이상탐지란?
● 실시간 이상탐지를 위한 기술 요구사항
● Druid/Imply 소개
● 높은 동시성에 대한 고성능 데이터베이스 Druid/Imply
● 머신러닝 파이프와 연계 기능
● 사례연구: Sift의 Anomaly Detection
● 결론
2

©2022, Imply
©2022, imply
실시간 이상탐지 기술 요건

©2022, Imply
이상탐지의 정의
4
● 이상탐지(Anomaly Detection)은 데이터 분석에 있어 오래된 업무 중 하나임
● 어떻게 ‘이상현상’을 정의할 것인가?의 방법론이 변화함
● 실제 사용으로 가장 널리 사용하게 되는 영역은 크게 세 가지 영역 정도 존재
● 보안 관련 업무
● 제조업 업무
● 금융업 업무

©2022, Imply
이상탐지 관련 업무 종류
5
• 내부 탐지
• 자금세탁방지
• 결제 관련 사기
• ID 탈취 탐지
• 멀웨어 탐지
• IoT, 디바이스 탐지
• 감사/컴플라이언스 등
업무 관점 탐색 및 시각화 관점 AI/ML 관점
• 상세한 시각화
• 의존성 파악
(라우팅 등의 복잡한
플로우에 대한 시각화)
• 군집 기반 탐지
• 지리 정보 기반 탐지
• 실시간 탐지 등
• 패턴 매칭 - 추천
• What If – 계획, 예상
• 예지 보전
• 스코어링과 리스크 분석
• 감사/컴플라이언스 – 과거
대조 분석
• 유사 탐지 등

©2022, Imply
이상탐지의 데이터 플로우
6
이벤트
로그 데이터 데이터 수집 집계
분석가
실시간 대시보드
AI/ML Modeling
● 데이터 수집과 분석, 배포의 반복으로 모델 고도화와 지속적인 시각화 수행
추가 요건 적용 및 신규 데이터 수집
데이터 파이프라인 고도화
BI
리포트
Dump 적재
데이터
피드 및 기록
모델 배포
Model
서비스
빅데이터
외부
데이터

©2022, Imply
이상감지 데이터 파이프 라인의 데이터베이스 요구사항
7
데이터 파이프라인 관점에서의 주요 요구사항은 다음과 같음
1. 지속적으로 늘어나는 엔드포인트로부터 들어오는 실시간 데이터의 입수
● 스트리밍 데이터의 입수 지원, 입수 데이터양 증가에 대한 선형적인 확장성 보장
2. 대용량 데이터에 대한 빠른 집계성 조회를 기반으로 유기적 업무 연계
● 집계성 업무에 대한 빠른 응답, API연계 등으로 알람 등의 기능에 활용
3. Feature Store로 MLOps 환경의 빠른 데이터 피딩을 제공하는 데이터베이스로 활용
● 학습 데이터를 제공하고 어떤 데이터가 활용되었는지에 대한 기록을 보유

©2022, Imply
최신 분석 어플리케이션
실시간 HighQPS 분석 데이터베이스
+
이상감지 프로세스에는 새로운 형태의 데이터베이스 필요
8
전통적 분석
Data Warehouses
최신 어플리케이션
Transactional Databases
Read-optimized
TB-PBs of Data
High Cardinality
Sub-Sec Response
High Concurrency
Operational Workflow
BI Reporting
Monthly Reporting
Static Dashboards
ACID Compliance
Small Data
Write-optimized
BI Reporting
Monthly Reporting
Static Dashboards
ACID Compliance
Small Data
Write-optimized
✓
✓
✓
✓
✓
✓
단지 빠른 데이터 수집이 아니라 다양한 분석이 요구됨

©2022, Imply
©2022, imply
Druid/Imply 소개

©2022, Imply
Druid / Imply소개
● 2015 년 Druid 개발자들이 설립한
Series D 단계의 회사
● Apache Druid 기반의 데이터 분석
플랫폼 제공
● 엔터프라이즈 기능 (성능 개선, 보안
기술)
● 관리 편의성, 모니터링
● 시각화
● 기존 Druid 고객 중 다수가 Imply
고객으로 전환
● 2010년 Apache 프로젝트로 시작
● 시계열 데이터에 대한 효과적인 저장
및 집계를 실시간으로 지원하기 위해
설계
● 스트리밍, 핀테크, 광고 등의 Digital
Native 회사들이 다수가 참여

©2022, Imply
분석 인프라의 진화
분산 저장 및 처리 분리된 SQL 쿼리엔진
1000+ 기업들이 Druid로 최신 분석
애플리케이션을구축했습니다.
2000s:
PB+규모의 데이터를 어떻게
저장하고 처리할 것인가?
2010s:
PB+ 규모에서 어떻게
데이터를 쿼리할 것인가?
2020s:
최신 분석 애플리케이션을어떻게
구축할 것인가?
(대용량 실시간 데이터 수집 및 분석)
HDFS, data lakes, Spark, etc Snowﬂake, BigQuery, Trino, etc Apache Druid, etc
효율성을 위해 설계된 실시간
데이터베이스
11

©2022, Imply
최신 데이터 분석 트렌드 달성을 요구 사항
실시간 대용량 데이터 분석을 위한 기술 요소
● PB 규모의 데이터 처리
● 초당 1,000개 이상 쿼리의 빠른 응답 지원
● 실시간 및 과거 데이터 연계 분석
12

©2022, Imply
모든 규모환경에서 인터랙티브한 분석
최적의 비용으로 높은 동시쿼리 지원
스트리밍 및 배치 데이터에 대한 통찰력
Best
Fit
범용 데이터베이스 클라우드데이터웨어하우스 Apache Druid
높은 비용발생
가능
가능
가능
-
-
-
-
-
기존 기술 대비 차이점
13

©2022, Imply
Apache Druid 아키텍처
실시간 데이터의 수집
실시간 데이터를 과거 데이터와 집계하여 빠르게 분석
– 스트리밍 기술과 연계
– 실시간 데이터의 실시간 처리
– 손쉽게 확장이 가능한 아키텍처
– 일관성 (Eventual Consistency)보장
중단없는 신뢰성
다운타임 걱정없는 운영
– 지속적인 백업
– 자동 복구
– 자동 리밸런싱
대규모의 환경에서 1초 미만의 쿼리 성능 제공
최신 어플리케이션에 필요한 데이터 처리 및 동시성 제공
– 최신 요구사항을지원하기 위한 하이브리드아키텍처
– 비용효율적인스토리지 엔진
– 다양한 방식으로 어플리케이션과연결 (JDBC, API 등)
Learn more: sub-second at scale, true stream ingestion, non-stop reliability
딥 스토리지
(클라우드/HDFS)
애플리케이션
쿼리 노드
데이터 인덱스
데이터 노드
마스터 노드
스트리밍
데이터
배치 데이터
컴퓨팅
14

©2022, Imply
Clickstreams Sensors Databases
Logs
Apps
Imply Pivot 커스텀 UI Tableau, etc
On-Prem
Imply Enterprise Druid 스트리밍 및 배치 데이터 수집 | 1초 미만의 쿼리속도
Imply Clarity 성능 모니터링 | 리소스 최적화
Imply 플랫폼
Apache Druid기반 엔터프라이즈 솔루션
Imply Expertise 커미터 기반 서포트 | 프로페셔널서비스
Imply Manager 간편한 클러스터 관리 | 빠른 구축 및 확장
15

©2022, Imply
사용 예시
플랫폼
Custom
visualizations
BI tools
Dashboards
& reports
Real-time
analytics
ML/AI
Data apps
On-Prem
Azure Blob
Store
Google Cloud
Storage
AWS S3
배치 혹은 스트리밍을 통한
데이터 입수
조회에 최적화 된 구조를 가진 세그먼트 형식으로 저장
높은 동시성에 대한 수초 이내
응답하는 경험치 제공
데이터 소스
Imply 동작 방식

©2022, Imply
최고의 클라우드 서비스
및 경험 제공
실시간 애플리케이션 , 클라우드,
제품 모니터링 및 진단
외부 고객에게 분석 제공
고객에게 실시간 분석 및
가시성 제공
Internal Apps External Apps
고객 판매 및
수익 극대화
디지털 네이티브 비즈니스, 게임 및
광고를 위한 실시간 인사이트
차세대 IT/보안 통찰력
제공
비즈니스, 서비스 또는 보안 운영을
개선하기 위한 실시간 가시성
최신 분석 애플리케이션 활용
17

©2022, Imply
©2022, imply
실시간 이상탐지 적용 사례

©2022, Imply
이상탐지를 위한 워크 플로우
19
사용자 행동
탐지 룰 엔진
(ML 모델)
허용 / 차단
사후 Ad-hoc
분석
케이스 리뷰 개선 방안 논의

©2022, Imply
이상탐지 내 Imply의 역할과 강점
20
이상탐지를 수행한 모델에 대한 지속적인 허용/차단 여부의 로그 데이터 필요
- 실시간 이벤트 스트리밍 데이터에 대한 효율적인 저장과 조회 기능
모델 개선을 위한 학습 시 다양한 시점의 데이터들이 필요함
- 다양한 시점을 기준으로 다양한 데이터 포인트들의 생성 및 피딩
새로 생성된 모델에 대한 실시간 데이터 기반 검증 수행
- 스트리밍 데이터에 대한 API 연계

©2022, Imply
모델 학습 / 자동화된 기능 선택
• 기존 데이터의 패턴 캡쳐
• 데이터가 많을수록 더 나은 모델을 생성
• 가장 세분화된 데이터를 Imply로 수집
• Spark/Python에서 쿼리하여 모델 학습,
테스트 및 검증
• 예측에 스트리밍 데이터 사용
Data Lake
(s3/GCS/ADLS/HDF
S/NAS)
Imply/Druid
Ingestion
spark
JDBC
Jupyter
notebook
pyspark

©2022, Imply
Sift - 온라인 사기방지 제공업체
● 디지털 신뢰 및 안전의 선두기업
● 이상탐지를 위해 머신러닝을 선제적으로 적용
● 프로덕션에 ML모델을 정기적으로 배포
● 고객은 스코어를 사용하여 이벤트를 승인/거부/관찰
● 고객의 합법적인 거래를 허용하고 허위 거래를 차단
● 이상데이터에서 학습하고 비정상적인 데이터에 대해 경고하기 위한 watchtower 구축
● Imply Druid를 분석용 OLAP엔진으로 사용하는 kafka기반 실시간 이벤트
● 모든 애플리케이션에서 이상감지를 위한 ML/데이터 사이언스 배경지식이 없는 엔지니어를
위한 셀프 서비스 도구로 Imply Pivot을 사용

©2022, Imply
Sift 아키텍처의 목적
• 고객 레벨에서 실시간으로 이상탐지를
수행
• 자동화 된 알람을 통한 업무 연계
• 높은 가용성
• 실시간으로 지원되는 root cause 분석
실시간으로 들어오는 데이터를 통해
‘일상’을 규정하고, 그 위에 ‘이상탐지’를
수행

©2022, Imply
Sift 머신러닝 프로세스
1. 현재 배포된 모델을 기준으로 허용/차단에 대한 실시간 데이터 수집
2. 실시간 데이터 기반 리포트 생성
3. 기존 데이터와 새로운 데이터를 기반으로 한 새로운 모델 학습 수행
(백그라운드에 VM을 띄워 Jupyter Notebook 환경을 구성)
4. 새로 만들어진 모델에 대한 검증을 수집되는 실시간 데이터를 기반으로 수행
5. 검증된 머신러닝 모델을 배포
6. 1의 단계를 반복

©2022, Imply
Sift 아키텍처를 지원하기 위한 Imply의 역할
1. 확장성 높은 실시간 이벤트 데이터 수집 도구
2. 실시간 집계와 쿼리를 수행하기 위한 데이터 스토리지
3. 집계된 시계열 데이터를 입수하고 이상탐지를 수행하여 리포트를 제공
4. 학습을 위한 라벨링이 되어 있지 않은 ‘과거의 실데이터’를 통해 새로운 머신러닝
알고리즘 학습
머신러닝 모델
Imply/Druid
Ingestion
spark
JDBC
Jupyter
notebook
pySpark
모델 생성, 검증 및 배포
실시간 대시보드 및 리포트

©2022, Imply
결론
29
Imply는 실시간 데이터를 입수, 집계, 전달하는데 최적의 성능을 가진 데이터베이스로,
머신러닝과 다음과 같이 연계되어 유기적인 연동이 가능함
● 모델에 대한 실시간 탐지 여부에 대한 데이터 수집
● 수집된 데이터를 바탕으로 실시간 대시보드 구성, 알람 연계 등에 활용
● 수집된 데이터를 기반으로 새로운 모델 학습에 데이터 포인트 생성

실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기

Similar to 실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기 (20)

실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기