SlideShare a Scribd company logo
1 of 30
Download to read offline
©2022, Imply
©2022, imply
실시간 이상탐지를 위한
머신러닝에 Druid/Imply 활용하기
대용량 이벤트에 대한 ML 분석 파이프라인으로의 HighQPS Druid 적용 방안과 사례
1
이기훈 (Ken.Lee@imply.io) Senior Sales Engineer
Imply Korea
Nov 2022
©2022, Imply
목차
● 실시간 이상탐지 기술 요건
● 이상탐지란?
● 실시간 이상탐지를 위한 기술 요구사항
● Druid/Imply 소개
● 높은 동시성에 대한 고성능 데이터베이스 Druid/Imply
● 머신러닝 파이프와 연계 기능
● 사례연구: Sift의 Anomaly Detection
● 결론
2
©2022, Imply
©2022, imply
실시간 이상탐지 기술 요건
©2022, Imply
이상탐지의 정의
4
● 이상탐지(Anomaly Detection)은 데이터 분석에 있어 오래된 업무 중 하나임
● 어떻게 ‘이상현상’을 정의할 것인가?의 방법론이 변화함
● 실제 사용으로 가장 널리 사용하게 되는 영역은 크게 세 가지 영역 정도 존재
● 보안 관련 업무
● 제조업 업무
● 금융업 업무
©2022, Imply
이상탐지 관련 업무 종류
5
• 내부 탐지
• 자금세탁방지
• 결제 관련 사기
• ID 탈취 탐지
• 멀웨어 탐지
• IoT, 디바이스 탐지
• 감사/컴플라이언스 등
업무 관점 탐색 및 시각화 관점 AI/ML 관점
• 상세한 시각화
• 의존성 파악
(라우팅 등의 복잡한
플로우에 대한 시각화)
• 군집 기반 탐지
• 지리 정보 기반 탐지
• 실시간 탐지 등
• 패턴 매칭 - 추천
• What If – 계획, 예상
• 예지 보전
• 스코어링과 리스크 분석
• 감사/컴플라이언스 – 과거
대조 분석
• 유사 탐지 등
©2022, Imply
이상탐지의 데이터 플로우
6
이벤트
로그 데이터 데이터 수집 집계
분석가
실시간 대시보드
AI/ML Modeling
● 데이터 수집과 분석, 배포의 반복으로 모델 고도화와 지속적인 시각화 수행
추가 요건 적용 및 신규 데이터 수집
데이터 파이프라인 고도화
BI
리포트
Dump 적재
데이터
피드 및 기록
모델 배포
Model
서비스
빅데이터
외부
데이터
©2022, Imply
이상감지 데이터 파이프 라인의 데이터베이스 요구사항
7
데이터 파이프라인 관점에서의 주요 요구사항은 다음과 같음
1. 지속적으로 늘어나는 엔드포인트로부터 들어오는 실시간 데이터의 입수
● 스트리밍 데이터의 입수 지원, 입수 데이터양 증가에 대한 선형적인 확장성 보장
2. 대용량 데이터에 대한 빠른 집계성 조회를 기반으로 유기적 업무 연계
● 집계성 업무에 대한 빠른 응답, API연계 등으로 알람 등의 기능에 활용
3. Feature Store로 MLOps 환경의 빠른 데이터 피딩을 제공하는 데이터베이스로 활용
● 학습 데이터를 제공하고 어떤 데이터가 활용되었는지에 대한 기록을 보유
©2022, Imply
최신 분석 어플리케이션
실시간 HighQPS 분석 데이터베이스
+
이상감지 프로세스에는 새로운 형태의 데이터베이스 필요
8
전통적 분석
Data Warehouses
최신 어플리케이션
Transactional Databases
Read-optimized
TB-PBs of Data
High Cardinality
Sub-Sec Response
High Concurrency
Operational Workflow
BI Reporting
Monthly Reporting
Static Dashboards
ACID Compliance
Small Data
Write-optimized
BI Reporting
Monthly Reporting
Static Dashboards
ACID Compliance
Small Data
Write-optimized
✓
✓
✓
✓
✓
✓
단지 빠른 데이터 수집이 아니라 다양한 분석이 요구됨
©2022, Imply
©2022, imply
Druid/Imply 소개
©2022, Imply
Druid / Imply소개
● 2015 년 Druid 개발자들이 설립한
Series D 단계의 회사
● Apache Druid 기반의 데이터 분석
플랫폼 제공
● 엔터프라이즈 기능 (성능 개선, 보안
기술)
● 관리 편의성, 모니터링
● 시각화
● 기존 Druid 고객 중 다수가 Imply
고객으로 전환
● 2010년 Apache 프로젝트로 시작
● 시계열 데이터에 대한 효과적인 저장
및 집계를 실시간으로 지원하기 위해
설계
● 스트리밍, 핀테크, 광고 등의 Digital
Native 회사들이 다수가 참여
©2022, Imply
분석 인프라의 진화
분산 저장 및 처리 분리된 SQL 쿼리엔진
1000+ 기업들이 Druid로 최신 분석
애플리케이션을구축했습니다.
2000s:
PB+규모의 데이터를 어떻게
저장하고 처리할 것인가?
2010s:
PB+ 규모에서 어떻게
데이터를 쿼리할 것인가?
2020s:
최신 분석 애플리케이션을어떻게
구축할 것인가?
(대용량 실시간 데이터 수집 및 분석)
HDFS, data lakes, Spark, etc Snowflake, BigQuery, Trino, etc Apache Druid, etc
효율성을 위해 설계된 실시간
데이터베이스
11
©2022, Imply
최신 데이터 분석 트렌드 달성을 요구 사항
실시간 대용량 데이터 분석을 위한 기술 요소
● PB 규모의 데이터 처리
● 초당 1,000개 이상 쿼리의 빠른 응답 지원
● 실시간 및 과거 데이터 연계 분석
12
©2022, Imply
모든 규모환경에서 인터랙티브한 분석
최적의 비용으로 높은 동시쿼리 지원
스트리밍 및 배치 데이터에 대한 통찰력
Best
Fit
범용 데이터베이스 클라우드데이터웨어하우스 Apache Druid
높은 비용발생
가능
가능
가능
-
-
-
-
-
기존 기술 대비 차이점
13
©2022, Imply
Apache Druid 아키텍처
실시간 데이터의 수집
실시간 데이터를 과거 데이터와 집계하여 빠르게 분석
– 스트리밍 기술과 연계
– 실시간 데이터의 실시간 처리
– 손쉽게 확장이 가능한 아키텍처
– 일관성 (Eventual Consistency)보장
중단없는 신뢰성
다운타임 걱정없는 운영
– 지속적인 백업
– 자동 복구
– 자동 리밸런싱
대규모의 환경에서 1초 미만의 쿼리 성능 제공
최신 어플리케이션에 필요한 데이터 처리 및 동시성 제공
– 최신 요구사항을지원하기 위한 하이브리드아키텍처
– 비용효율적인스토리지 엔진
– 다양한 방식으로 어플리케이션과연결 (JDBC, API 등)
Learn more: sub-second at scale, true stream ingestion, non-stop reliability
딥 스토리지
(클라우드/HDFS)
애플리케이션
쿼리 노드
데이터 인덱스
데이터 노드
마스터 노드
스트리밍
데이터
배치 데이터
컴퓨팅
14
©2022, Imply
Clickstreams Sensors Databases
Logs
Apps
Imply Pivot 커스텀 UI Tableau, etc
On-Prem
Imply Enterprise Druid 스트리밍 및 배치 데이터 수집 | 1초 미만의 쿼리속도
Imply Clarity 성능 모니터링 | 리소스 최적화
Imply 플랫폼
Apache Druid기반 엔터프라이즈 솔루션
Imply Expertise 커미터 기반 서포트 | 프로페셔널서비스
Imply Manager 간편한 클러스터 관리 | 빠른 구축 및 확장
15
©2022, Imply
사용 예시
플랫폼
Custom
visualizations
BI tools
Dashboards
& reports
Real-time
analytics
ML/AI
Data apps
On-Prem
Azure Blob
Store
Google Cloud
Storage
AWS S3
배치 혹은 스트리밍을 통한
데이터 입수
조회에 최적화 된 구조를 가진 세그먼트 형식으로 저장
높은 동시성에 대한 수초 이내
응답하는 경험치 제공
데이터 소스
Imply 동작 방식
©2022, Imply
최고의 클라우드 서비스
및 경험 제공
실시간 애플리케이션 , 클라우드,
제품 모니터링 및 진단
외부 고객에게 분석 제공
고객에게 실시간 분석 및
가시성 제공
Internal Apps External Apps
고객 판매 및
수익 극대화
디지털 네이티브 비즈니스, 게임 및
광고를 위한 실시간 인사이트
차세대 IT/보안 통찰력
제공
비즈니스, 서비스 또는 보안 운영을
개선하기 위한 실시간 가시성
최신 분석 애플리케이션 활용
17
©2022, Imply
©2022, imply
실시간 이상탐지 적용 사례
©2022, Imply
이상탐지를 위한 워크 플로우
19
사용자 행동
탐지 룰 엔진
(ML 모델)
허용 / 차단
사후 Ad-hoc
분석
케이스 리뷰 개선 방안 논의
©2022, Imply
이상탐지 내 Imply의 역할과 강점
20
이상탐지를 수행한 모델에 대한 지속적인 허용/차단 여부의 로그 데이터 필요
- 실시간 이벤트 스트리밍 데이터에 대한 효율적인 저장과 조회 기능
모델 개선을 위한 학습 시 다양한 시점의 데이터들이 필요함
- 다양한 시점을 기준으로 다양한 데이터 포인트들의 생성 및 피딩
새로 생성된 모델에 대한 실시간 데이터 기반 검증 수행
- 스트리밍 데이터에 대한 API 연계
©2022, Imply
모델 학습 / 자동화된 기능 선택
• 기존 데이터의 패턴 캡쳐
• 데이터가 많을수록 더 나은 모델을 생성
• 가장 세분화된 데이터를 Imply로 수집
• Spark/Python에서 쿼리하여 모델 학습,
테스트 및 검증
• 예측에 스트리밍 데이터 사용
Data Lake
(s3/GCS/ADLS/HDF
S/NAS)
Imply/Druid
Ingestion
spark
JDBC
Jupyter
notebook
pyspark
©2022, Imply
Confidential. Do not redistribute.
Automated Anomaly Detection at Scale
Confidential. Do not redistribute.
©2022, Imply
Sift - 온라인 사기방지 제공업체
● 디지털 신뢰 및 안전의 선두기업
● 이상탐지를 위해 머신러닝을 선제적으로 적용
● 프로덕션에 ML모델을 정기적으로 배포
● 고객은 스코어를 사용하여 이벤트를 승인/거부/관찰
● 고객의 합법적인 거래를 허용하고 허위 거래를 차단
● 이상데이터에서 학습하고 비정상적인 데이터에 대해 경고하기 위한 watchtower 구축
● Imply Druid를 분석용 OLAP엔진으로 사용하는 kafka기반 실시간 이벤트
● 모든 애플리케이션에서 이상감지를 위한 ML/데이터 사이언스 배경지식이 없는 엔지니어를
위한 셀프 서비스 도구로 Imply Pivot을 사용
©2022, Imply
Sift 아키텍처의 목적
• 고객 레벨에서 실시간으로 이상탐지를
수행
• 자동화 된 알람을 통한 업무 연계
• 높은 가용성
• 실시간으로 지원되는 root cause 분석
실시간으로 들어오는 데이터를 통해
‘일상’을 규정하고, 그 위에 ‘이상탐지’를
수행
©2022, Imply
Sift 머신러닝 프로세스
1. 현재 배포된 모델을 기준으로 허용/차단에 대한 실시간 데이터 수집
2. 실시간 데이터 기반 리포트 생성
3. 기존 데이터와 새로운 데이터를 기반으로 한 새로운 모델 학습 수행
(백그라운드에 VM을 띄워 Jupyter Notebook 환경을 구성)
4. 새로 만들어진 모델에 대한 검증을 수집되는 실시간 데이터를 기반으로 수행
5. 검증된 머신러닝 모델을 배포
6. 1의 단계를 반복
©2022, Imply
Sift 아키텍처를 지원하기 위한 Imply의 역할
1. 확장성 높은 실시간 이벤트 데이터 수집 도구
2. 실시간 집계와 쿼리를 수행하기 위한 데이터 스토리지
3. 집계된 시계열 데이터를 입수하고 이상탐지를 수행하여 리포트를 제공
4. 학습을 위한 라벨링이 되어 있지 않은 ‘과거의 실데이터’를 통해 새로운 머신러닝
알고리즘 학습
머신러닝 모델
Imply/Druid
Ingestion
spark
JDBC
Jupyter
notebook
pySpark
모델 생성, 검증 및 배포
실시간 대시보드 및 리포트
©2022, Imply
Imply Pivot을 통한 UI 제공
지속적으로 새로 배포된 모델의 실시간 이상탐지 추이를 대시보드로 관제
©2022, Imply
©2022, imply
결론
©2022, Imply
결론
29
Imply는 실시간 데이터를 입수, 집계, 전달하는데 최적의 성능을 가진 데이터베이스로,
머신러닝과 다음과 같이 연계되어 유기적인 연동이 가능함
● 모델에 대한 실시간 탐지 여부에 대한 데이터 수집
● 수집된 데이터를 바탕으로 실시간 대시보드 구성, 알람 연계 등에 활용
● 수집된 데이터를 기반으로 새로운 모델 학습에 데이터 포인트 생성
©2022, Imply
©2022, imply
The Database for Modern Analytics Applications
30
문의: 윤선정 이사 (Sunny.Yoon@imply.io)

More Related Content

What's hot

What's hot (20)

[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
AWS Batch를 통한 손쉬운 일괄 처리 작업 관리하기 - 윤석찬 (AWS 테크에반젤리스트)
AWS Batch를 통한 손쉬운 일괄 처리 작업 관리하기 - 윤석찬 (AWS 테크에반젤리스트)AWS Batch를 통한 손쉬운 일괄 처리 작업 관리하기 - 윤석찬 (AWS 테크에반젤리스트)
AWS Batch를 통한 손쉬운 일괄 처리 작업 관리하기 - 윤석찬 (AWS 테크에반젤리스트)
 
Twitter의 snowflake 소개 및 활용
Twitter의 snowflake 소개 및 활용Twitter의 snowflake 소개 및 활용
Twitter의 snowflake 소개 및 활용
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
서버리스 앱 배포 자동화 (김필중, AWS 솔루션즈 아키텍트) :: AWS DevDay2018
서버리스 앱 배포 자동화 (김필중, AWS 솔루션즈 아키텍트) :: AWS DevDay2018서버리스 앱 배포 자동화 (김필중, AWS 솔루션즈 아키텍트) :: AWS DevDay2018
서버리스 앱 배포 자동화 (김필중, AWS 솔루션즈 아키텍트) :: AWS DevDay2018
 
Data Science. Intro
Data Science. IntroData Science. Intro
Data Science. Intro
 
Machine Learning Data Lineage with MLflow and Delta Lake
Machine Learning Data Lineage with MLflow and Delta LakeMachine Learning Data Lineage with MLflow and Delta Lake
Machine Learning Data Lineage with MLflow and Delta Lake
 
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
고객의 플랫폼/서비스를 개선한 국내 사례 살펴보기 – 장준성 AWS 솔루션즈 아키텍트, 강산아 NDREAM 팀장, 송영호 야놀자 매니저, ...
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
Snowflake Automated Deployments / CI/CD Pipelines
Snowflake Automated Deployments / CI/CD PipelinesSnowflake Automated Deployments / CI/CD Pipelines
Snowflake Automated Deployments / CI/CD Pipelines
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
Best Practices for Streaming IoT Data with MQTT and Apache Kafka®
Best Practices for Streaming IoT Data with MQTT and Apache Kafka®Best Practices for Streaming IoT Data with MQTT and Apache Kafka®
Best Practices for Streaming IoT Data with MQTT and Apache Kafka®
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
 
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
Streaming Data Analytics with Amazon Redshift and Kinesis FirehoseStreaming Data Analytics with Amazon Redshift and Kinesis Firehose
Streaming Data Analytics with Amazon Redshift and Kinesis Firehose
 
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
 
옵저버빌러티(Observability) 확보로 서버리스 마이크로서비스 들여다보기 - 김형일 AWS 솔루션즈 아키텍트 :: AWS Summi...
옵저버빌러티(Observability) 확보로 서버리스 마이크로서비스 들여다보기 - 김형일 AWS 솔루션즈 아키텍트 :: AWS Summi...옵저버빌러티(Observability) 확보로 서버리스 마이크로서비스 들여다보기 - 김형일 AWS 솔루션즈 아키텍트 :: AWS Summi...
옵저버빌러티(Observability) 확보로 서버리스 마이크로서비스 들여다보기 - 김형일 AWS 솔루션즈 아키텍트 :: AWS Summi...
 
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
[Retail & CPG Day 2019] 마켓컬리 서비스 AWS 이관 및 최적화 여정 - 임상석, 마켓컬리 개발 리더
 

Similar to 실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기

제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
Amazon Web Services Korea
 
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
Amazon Web Services Korea
 

Similar to 실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기 (20)

AI = SE , giip system manage automation with A.I
AI = SE , giip system manage automation with A.IAI = SE , giip system manage automation with A.I
AI = SE , giip system manage automation with A.I
 
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018 제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
제조업의 AWS 기반 주요 워크로드 및 고객 사례:: 이현석::AWS Summit Seoul 2018
 
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
 
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
 
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
 
H2O Driverless AI on IBM Power
H2O Driverless AI on IBM PowerH2O Driverless AI on IBM Power
H2O Driverless AI on IBM Power
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
클라우드를 활용한 디지털 제조(Digital Manufacturing)실현 방법 및 사례 소개 - 윤석찬 (AWS 테크에반젤리스트) :: ...
 
Pivotal Big Data Suite 소개자료
Pivotal Big Data Suite 소개자료Pivotal Big Data Suite 소개자료
Pivotal Big Data Suite 소개자료
 
빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용빅데이터 분석 시스템 도입과 AI 적용
빅데이터 분석 시스템 도입과 AI 적용
 
AWS Builders Industry edition : 흔하지만 흔하지않은 클라우드 도입과 DT 사례
AWS Builders Industry edition : 흔하지만 흔하지않은 클라우드 도입과 DT 사례AWS Builders Industry edition : 흔하지만 흔하지않은 클라우드 도입과 DT 사례
AWS Builders Industry edition : 흔하지만 흔하지않은 클라우드 도입과 DT 사례
 
(Samuel) sumo logic producuts 21th jan 2021(slideshare)
(Samuel) sumo logic producuts 21th jan 2021(slideshare)(Samuel) sumo logic producuts 21th jan 2021(slideshare)
(Samuel) sumo logic producuts 21th jan 2021(slideshare)
 
IBM PowerAI Vision
IBM PowerAI VisionIBM PowerAI Vision
IBM PowerAI Vision
 
IBM Cloud 사례집
IBM Cloud 사례집IBM Cloud 사례집
IBM Cloud 사례집
 
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
AWS CLOUD 2017 - Enterprise is Cloud Ready. 클라우드 뉴노멀 시대에 글로벌 혁신 기업들의 클라우드 전략 ...
 
[경북] I'mcloud opensight
[경북] I'mcloud opensight[경북] I'mcloud opensight
[경북] I'mcloud opensight
 
RealDisplay Platform 으로 구현하는 BAM(Business Activity Monitoring) 솔루션 소개
RealDisplay Platform 으로 구현하는 BAM(Business Activity Monitoring) 솔루션 소개RealDisplay Platform 으로 구현하는 BAM(Business Activity Monitoring) 솔루션 소개
RealDisplay Platform 으로 구현하는 BAM(Business Activity Monitoring) 솔루션 소개
 
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
All about Data Center Migration Session 1. <Case Study> 오비맥주 사례로 알아보는 DC 마이그레...
 
INFRASTRUCTURE
INFRASTRUCTUREINFRASTRUCTURE
INFRASTRUCTURE
 
Thing+ 소개자료(daliworks)
Thing+ 소개자료(daliworks)Thing+ 소개자료(daliworks)
Thing+ 소개자료(daliworks)
 

실시간 이상탐지를 위한 머신러닝 모델에 Druid _ Imply 활용하기

  • 1. ©2022, Imply ©2022, imply 실시간 이상탐지를 위한 머신러닝에 Druid/Imply 활용하기 대용량 이벤트에 대한 ML 분석 파이프라인으로의 HighQPS Druid 적용 방안과 사례 1 이기훈 (Ken.Lee@imply.io) Senior Sales Engineer Imply Korea Nov 2022
  • 2. ©2022, Imply 목차 ● 실시간 이상탐지 기술 요건 ● 이상탐지란? ● 실시간 이상탐지를 위한 기술 요구사항 ● Druid/Imply 소개 ● 높은 동시성에 대한 고성능 데이터베이스 Druid/Imply ● 머신러닝 파이프와 연계 기능 ● 사례연구: Sift의 Anomaly Detection ● 결론 2
  • 3. ©2022, Imply ©2022, imply 실시간 이상탐지 기술 요건
  • 4. ©2022, Imply 이상탐지의 정의 4 ● 이상탐지(Anomaly Detection)은 데이터 분석에 있어 오래된 업무 중 하나임 ● 어떻게 ‘이상현상’을 정의할 것인가?의 방법론이 변화함 ● 실제 사용으로 가장 널리 사용하게 되는 영역은 크게 세 가지 영역 정도 존재 ● 보안 관련 업무 ● 제조업 업무 ● 금융업 업무
  • 5. ©2022, Imply 이상탐지 관련 업무 종류 5 • 내부 탐지 • 자금세탁방지 • 결제 관련 사기 • ID 탈취 탐지 • 멀웨어 탐지 • IoT, 디바이스 탐지 • 감사/컴플라이언스 등 업무 관점 탐색 및 시각화 관점 AI/ML 관점 • 상세한 시각화 • 의존성 파악 (라우팅 등의 복잡한 플로우에 대한 시각화) • 군집 기반 탐지 • 지리 정보 기반 탐지 • 실시간 탐지 등 • 패턴 매칭 - 추천 • What If – 계획, 예상 • 예지 보전 • 스코어링과 리스크 분석 • 감사/컴플라이언스 – 과거 대조 분석 • 유사 탐지 등
  • 6. ©2022, Imply 이상탐지의 데이터 플로우 6 이벤트 로그 데이터 데이터 수집 집계 분석가 실시간 대시보드 AI/ML Modeling ● 데이터 수집과 분석, 배포의 반복으로 모델 고도화와 지속적인 시각화 수행 추가 요건 적용 및 신규 데이터 수집 데이터 파이프라인 고도화 BI 리포트 Dump 적재 데이터 피드 및 기록 모델 배포 Model 서비스 빅데이터 외부 데이터
  • 7. ©2022, Imply 이상감지 데이터 파이프 라인의 데이터베이스 요구사항 7 데이터 파이프라인 관점에서의 주요 요구사항은 다음과 같음 1. 지속적으로 늘어나는 엔드포인트로부터 들어오는 실시간 데이터의 입수 ● 스트리밍 데이터의 입수 지원, 입수 데이터양 증가에 대한 선형적인 확장성 보장 2. 대용량 데이터에 대한 빠른 집계성 조회를 기반으로 유기적 업무 연계 ● 집계성 업무에 대한 빠른 응답, API연계 등으로 알람 등의 기능에 활용 3. Feature Store로 MLOps 환경의 빠른 데이터 피딩을 제공하는 데이터베이스로 활용 ● 학습 데이터를 제공하고 어떤 데이터가 활용되었는지에 대한 기록을 보유
  • 8. ©2022, Imply 최신 분석 어플리케이션 실시간 HighQPS 분석 데이터베이스 + 이상감지 프로세스에는 새로운 형태의 데이터베이스 필요 8 전통적 분석 Data Warehouses 최신 어플리케이션 Transactional Databases Read-optimized TB-PBs of Data High Cardinality Sub-Sec Response High Concurrency Operational Workflow BI Reporting Monthly Reporting Static Dashboards ACID Compliance Small Data Write-optimized BI Reporting Monthly Reporting Static Dashboards ACID Compliance Small Data Write-optimized ✓ ✓ ✓ ✓ ✓ ✓ 단지 빠른 데이터 수집이 아니라 다양한 분석이 요구됨
  • 10. ©2022, Imply Druid / Imply소개 ● 2015 년 Druid 개발자들이 설립한 Series D 단계의 회사 ● Apache Druid 기반의 데이터 분석 플랫폼 제공 ● 엔터프라이즈 기능 (성능 개선, 보안 기술) ● 관리 편의성, 모니터링 ● 시각화 ● 기존 Druid 고객 중 다수가 Imply 고객으로 전환 ● 2010년 Apache 프로젝트로 시작 ● 시계열 데이터에 대한 효과적인 저장 및 집계를 실시간으로 지원하기 위해 설계 ● 스트리밍, 핀테크, 광고 등의 Digital Native 회사들이 다수가 참여
  • 11. ©2022, Imply 분석 인프라의 진화 분산 저장 및 처리 분리된 SQL 쿼리엔진 1000+ 기업들이 Druid로 최신 분석 애플리케이션을구축했습니다. 2000s: PB+규모의 데이터를 어떻게 저장하고 처리할 것인가? 2010s: PB+ 규모에서 어떻게 데이터를 쿼리할 것인가? 2020s: 최신 분석 애플리케이션을어떻게 구축할 것인가? (대용량 실시간 데이터 수집 및 분석) HDFS, data lakes, Spark, etc Snowflake, BigQuery, Trino, etc Apache Druid, etc 효율성을 위해 설계된 실시간 데이터베이스 11
  • 12. ©2022, Imply 최신 데이터 분석 트렌드 달성을 요구 사항 실시간 대용량 데이터 분석을 위한 기술 요소 ● PB 규모의 데이터 처리 ● 초당 1,000개 이상 쿼리의 빠른 응답 지원 ● 실시간 및 과거 데이터 연계 분석 12
  • 13. ©2022, Imply 모든 규모환경에서 인터랙티브한 분석 최적의 비용으로 높은 동시쿼리 지원 스트리밍 및 배치 데이터에 대한 통찰력 Best Fit 범용 데이터베이스 클라우드데이터웨어하우스 Apache Druid 높은 비용발생 가능 가능 가능 - - - - - 기존 기술 대비 차이점 13
  • 14. ©2022, Imply Apache Druid 아키텍처 실시간 데이터의 수집 실시간 데이터를 과거 데이터와 집계하여 빠르게 분석 – 스트리밍 기술과 연계 – 실시간 데이터의 실시간 처리 – 손쉽게 확장이 가능한 아키텍처 – 일관성 (Eventual Consistency)보장 중단없는 신뢰성 다운타임 걱정없는 운영 – 지속적인 백업 – 자동 복구 – 자동 리밸런싱 대규모의 환경에서 1초 미만의 쿼리 성능 제공 최신 어플리케이션에 필요한 데이터 처리 및 동시성 제공 – 최신 요구사항을지원하기 위한 하이브리드아키텍처 – 비용효율적인스토리지 엔진 – 다양한 방식으로 어플리케이션과연결 (JDBC, API 등) Learn more: sub-second at scale, true stream ingestion, non-stop reliability 딥 스토리지 (클라우드/HDFS) 애플리케이션 쿼리 노드 데이터 인덱스 데이터 노드 마스터 노드 스트리밍 데이터 배치 데이터 컴퓨팅 14
  • 15. ©2022, Imply Clickstreams Sensors Databases Logs Apps Imply Pivot 커스텀 UI Tableau, etc On-Prem Imply Enterprise Druid 스트리밍 및 배치 데이터 수집 | 1초 미만의 쿼리속도 Imply Clarity 성능 모니터링 | 리소스 최적화 Imply 플랫폼 Apache Druid기반 엔터프라이즈 솔루션 Imply Expertise 커미터 기반 서포트 | 프로페셔널서비스 Imply Manager 간편한 클러스터 관리 | 빠른 구축 및 확장 15
  • 16. ©2022, Imply 사용 예시 플랫폼 Custom visualizations BI tools Dashboards & reports Real-time analytics ML/AI Data apps On-Prem Azure Blob Store Google Cloud Storage AWS S3 배치 혹은 스트리밍을 통한 데이터 입수 조회에 최적화 된 구조를 가진 세그먼트 형식으로 저장 높은 동시성에 대한 수초 이내 응답하는 경험치 제공 데이터 소스 Imply 동작 방식
  • 17. ©2022, Imply 최고의 클라우드 서비스 및 경험 제공 실시간 애플리케이션 , 클라우드, 제품 모니터링 및 진단 외부 고객에게 분석 제공 고객에게 실시간 분석 및 가시성 제공 Internal Apps External Apps 고객 판매 및 수익 극대화 디지털 네이티브 비즈니스, 게임 및 광고를 위한 실시간 인사이트 차세대 IT/보안 통찰력 제공 비즈니스, 서비스 또는 보안 운영을 개선하기 위한 실시간 가시성 최신 분석 애플리케이션 활용 17
  • 18. ©2022, Imply ©2022, imply 실시간 이상탐지 적용 사례
  • 19. ©2022, Imply 이상탐지를 위한 워크 플로우 19 사용자 행동 탐지 룰 엔진 (ML 모델) 허용 / 차단 사후 Ad-hoc 분석 케이스 리뷰 개선 방안 논의
  • 20. ©2022, Imply 이상탐지 내 Imply의 역할과 강점 20 이상탐지를 수행한 모델에 대한 지속적인 허용/차단 여부의 로그 데이터 필요 - 실시간 이벤트 스트리밍 데이터에 대한 효율적인 저장과 조회 기능 모델 개선을 위한 학습 시 다양한 시점의 데이터들이 필요함 - 다양한 시점을 기준으로 다양한 데이터 포인트들의 생성 및 피딩 새로 생성된 모델에 대한 실시간 데이터 기반 검증 수행 - 스트리밍 데이터에 대한 API 연계
  • 21. ©2022, Imply 모델 학습 / 자동화된 기능 선택 • 기존 데이터의 패턴 캡쳐 • 데이터가 많을수록 더 나은 모델을 생성 • 가장 세분화된 데이터를 Imply로 수집 • Spark/Python에서 쿼리하여 모델 학습, 테스트 및 검증 • 예측에 스트리밍 데이터 사용 Data Lake (s3/GCS/ADLS/HDF S/NAS) Imply/Druid Ingestion spark JDBC Jupyter notebook pyspark
  • 22. ©2022, Imply Confidential. Do not redistribute. Automated Anomaly Detection at Scale Confidential. Do not redistribute.
  • 23. ©2022, Imply Sift - 온라인 사기방지 제공업체 ● 디지털 신뢰 및 안전의 선두기업 ● 이상탐지를 위해 머신러닝을 선제적으로 적용 ● 프로덕션에 ML모델을 정기적으로 배포 ● 고객은 스코어를 사용하여 이벤트를 승인/거부/관찰 ● 고객의 합법적인 거래를 허용하고 허위 거래를 차단 ● 이상데이터에서 학습하고 비정상적인 데이터에 대해 경고하기 위한 watchtower 구축 ● Imply Druid를 분석용 OLAP엔진으로 사용하는 kafka기반 실시간 이벤트 ● 모든 애플리케이션에서 이상감지를 위한 ML/데이터 사이언스 배경지식이 없는 엔지니어를 위한 셀프 서비스 도구로 Imply Pivot을 사용
  • 24. ©2022, Imply Sift 아키텍처의 목적 • 고객 레벨에서 실시간으로 이상탐지를 수행 • 자동화 된 알람을 통한 업무 연계 • 높은 가용성 • 실시간으로 지원되는 root cause 분석 실시간으로 들어오는 데이터를 통해 ‘일상’을 규정하고, 그 위에 ‘이상탐지’를 수행
  • 25. ©2022, Imply Sift 머신러닝 프로세스 1. 현재 배포된 모델을 기준으로 허용/차단에 대한 실시간 데이터 수집 2. 실시간 데이터 기반 리포트 생성 3. 기존 데이터와 새로운 데이터를 기반으로 한 새로운 모델 학습 수행 (백그라운드에 VM을 띄워 Jupyter Notebook 환경을 구성) 4. 새로 만들어진 모델에 대한 검증을 수집되는 실시간 데이터를 기반으로 수행 5. 검증된 머신러닝 모델을 배포 6. 1의 단계를 반복
  • 26. ©2022, Imply Sift 아키텍처를 지원하기 위한 Imply의 역할 1. 확장성 높은 실시간 이벤트 데이터 수집 도구 2. 실시간 집계와 쿼리를 수행하기 위한 데이터 스토리지 3. 집계된 시계열 데이터를 입수하고 이상탐지를 수행하여 리포트를 제공 4. 학습을 위한 라벨링이 되어 있지 않은 ‘과거의 실데이터’를 통해 새로운 머신러닝 알고리즘 학습 머신러닝 모델 Imply/Druid Ingestion spark JDBC Jupyter notebook pySpark 모델 생성, 검증 및 배포 실시간 대시보드 및 리포트
  • 27. ©2022, Imply Imply Pivot을 통한 UI 제공 지속적으로 새로 배포된 모델의 실시간 이상탐지 추이를 대시보드로 관제
  • 29. ©2022, Imply 결론 29 Imply는 실시간 데이터를 입수, 집계, 전달하는데 최적의 성능을 가진 데이터베이스로, 머신러닝과 다음과 같이 연계되어 유기적인 연동이 가능함 ● 모델에 대한 실시간 탐지 여부에 대한 데이터 수집 ● 수집된 데이터를 바탕으로 실시간 대시보드 구성, 알람 연계 등에 활용 ● 수집된 데이터를 기반으로 새로운 모델 학습에 데이터 포인트 생성
  • 30. ©2022, Imply ©2022, imply The Database for Modern Analytics Applications 30 문의: 윤선정 이사 (Sunny.Yoon@imply.io)