KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Solutions Architect, AWS│이종혁, Analytics SA, WWSO, AWS ::: AWS Data Roadshow 2023

Amazon Web Services Korea
Amazon Web Services KoreaAmazon Web Services Korea
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
강병억
Solutions Architect
AWS
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정
박창용
Data Scientist
KB국민카드
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
금융사에서 AWS를 사용하기란?
왜 Public Cloud에 분석플랫폼을?
어떤 서비스를 활용하는 것이 좋을까?
MLOps는 어떻게?
실제로 효과가 있었을까?
Next, All we need is MLOps
2
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
금융사에서 AWS를
사용하기란?
3
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
안전성 확보 조치를 위한 구성 고려 사항
4
계정관리
항목
접근통제
내부시스템/단말기 연계
암호화 및 키 관리
로깅
가상 환경 보안
보안 모니터링 및 취약점 분석 평가
인적 보안
안전성 확보조치 방안 예시
직무분리, 그룹별 권한 최소화, 작업로깅, IAM적용
VPC/subnet분리통한논리적망분리,보안그룹,NACL적용,암호화통신
전용선(Direct Connect)/VPN을 통한 구성 적용
암호키 관리, Column 암호화 적용, 안전한 암호화 알고리즘 사용
행위로그 및 보안로그를 기록 관리
가상환경 내 보안 기능 적용, 가상 자원 작업 검토
중요 로그 실시간 모니터링, 정기적인 취약점 점검 실시
내부 클라우드 서비스 이용자의 보안 교육
"클라우드서비스 관련
보안사고의 예방을 위해
계정관리, 접근통제 등 필수
보안 통제가 구현되도록
안전성 확보조치 방안을
수립하여 이행하여야 한다."
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
클라우드 워크로드가 추가된다면?
5
최초의 클라우드 워크로드
서비스 계정
공통 계정
여러개의 워크로드가 추가됨
서비스 계정1 서비스 계정2 서비스 계정3
관리 계정
네트워크 계정
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
금융사 AWS 클라우드의 특징
6
아키텍처 주요 특징
❖ 인터넷 접속 제한
- 대고객 진입점을 제외하고는
인터넷 접속 제한
❖ 멀티어카운트 구성
- 멀티어카운트 구조를
활용하여 일관되게 보안과
네트워크에 대한 정책을 적용
❖ On-prem 보안 정책 준용
- On-prem 보안 정책과 동일한
보안 정책 적용을 위해서
방화벽, 접근제어, 암호화 등에
대해서 기존 3rd party
솔루션을 활용
❖ 전용선 or VPN
- Direct Connect를
이용하거나 VPN을 이용하여
암호화된 채널을 사용
K은행
K카드
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
금융사의 데이터 레이크 기반 거버넌스
7
정형 데이터
반정형 데이터
Mobile Social Sensors
POS
terminals
비정형 데이터
Phone
calls
Images Videos Email
데이터 처리
AWS
Glue
실시간 스트리밍
Amazon
Kinesis
Amazon S3
데이터 레이크
Amazon S3
Amazon
Redshift
Amazon Athena
분석 플랫폼
Amazon
QuickSight
Amazon
EMR
Amazon
MSK
머신 러닝
Amazon
SageMaker
Amazon
EMR
Aurora
RDS
DynamoDB
DocumentDB
Neptune
QLDB
Timestream
ElastiCache
Keyspaces
AWS DMS
AWS Glue
데이터 카탈로그
AWS Transfer
Family
AWS Lake Formation
데이터 거버넌스
데이터 수집
Amazon
Comprehend
Amazon
Textract
Amazon
Transcribe
Amazon
Translate
Amazon
Personalize
Amazon
FinSpace
Amazon
Neptune
ERP CRM LOB
applications
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
금융사의 모던 데이터 메시 아키텍처
8
Raw
AWS Lake
Formation
Glue Catalog
데이터 생산자 Account 1
Trusted
Raw
AWS Lake
Formation
Glue Catalog
Trusted
AWS Lake
Formation
Glue Catalog
AWS Lake
Formation
Glue Catalog
Amazon
SageMaker
AWS Lake
Formation
Glue Catalog
Amazon
Redshift
Amazon
Quicksight
AWS Cloud
Data Analyst Data Scientist
Data Engineer
Central Catalog
데이터 생산자 Account 2
데이터 소비자 Account 1
데이터 소비자 Account 2
Central Lake
Account
데이터 페르소나
❖ AWS기반의 모던 데이터 메시
아키텍처에서는 데이터
생산자와 데이터 소비자 간의
데이터 흐름을 표준화해서
데이터 거버넌스와 데이터
리니지 관리가 효율화됩니다
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
KB국민카드,
클라우드 기반
분석플랫폼부터 MLOps까지
9
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
분석 플랫폼이란?
10
사용자들이 필요한 데이터를 이용할 수 있고, 다양한 알고리즘을 실험할 수 있는 기반
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
왜 Public Cloud에 분석플랫폼을?
11
✓ SQL 전문가를 위한 SQL 엔진
✓ Python / R 분석가를 위한 Jupyter Notebook/Lab,
R Studio
✓ 분산 처리를 위한 Hadoop
✓ 실시간 데이터 서빙을 위한 Elastic Search
✓ 모니터링 대시보드
On-premise에도 분석플랫폼은 존재함
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
왜 Public Cloud에 분석플랫폼을?
12
▪ 자원 경합의 문제를 고민하지 않고 사용할 수
있는 분석 플랫폼
▪ 분석을 마친 프로젝트의 자원 반납을 통해
비용 절감
▪ 분석 성격에 맞는 컴퓨팅 리소스 선택 가능
(Large Memory, GPU)
On-demand
분석 플랫폼 구성 가능
물리적인 서버에 대한
유지보수 필요 없음
Managed Service 활용
▪ Robust Service 운영 가능
▪ 신규 서비스 도입 lead time
감소
▪ 하드웨어 돌발 상황 대처 용이
▪ 소프트웨어 버전 관리 용이
▪ 하드웨어 점검 및 유지보수 비용
감소
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Public Cloud 기반 분석 플랫폼
13
On-Premise
AWS Cloud (Seoul Region)
MWAA(Managed Workflows for Apache Airflow)
포털 (WEB/WAS)
RDS
AZ1 AZ2
#2
VPC (Subnet)
Notebook
(Code)
SageMaker
Wrangler
(UI)
Project #1
#3
Athena
(SQL)
IAM
ECS ECR
고급분석 & ML
AWS API
OnPrem.(Oracle)
OnPrem.(HDFS)
분석가
그룹
데이터레이크 (S3)
Raw Mart
ML 관리
ML 결과 전처리
Athena
SQL 기반 분석
Management (EC2)
EC2
1) PyPI 서버
2) Docker 관리 서버
Lambda:
Project 생성/변경/폐기
Pipeline 배포
ETL Job
Workflow 생성, 관리 및 모니터링
ML Pipeline Job
Workflow
1) ML 훈련 Job (+재학습)
2) ML 예측 결과 생성 Job
3) ML 모델 성능 모니터링 Job
※ Versioning
- Model
- Code
- DataSet
SageMaker AutoPilot
AutoML (자동) 분석
Python
Package
Repository
S3
Glue
Catalog
WAS
Workflow 모니터링
다양한
실험/시도
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Public Cloud 기반 분석 플랫폼
14
▪ 데이터 분석을 진행하기 위해서 프로젝트 신청을 통해 AWS Resource 할당
S3 에 존재하는 DataSet 을 AWS SageMaker Studio 을 기반으로 AWS 의 다양한 기능들을 이용하여 분석을 진행
AWS Cloud
VPC (Subnet)
Portal EC2
SageMaker
AWS Lambda
IAM S3
AWS
Boto3 API
AWS
Java API Parameter
Response
(JSON)
LB
AZ2
[데이터 분석 Project 생성]
RDS
MWAA Watch Alarm
On-Premise
분석가
그룹
VPC (Subnet)
Portal
AWS Cloud
EC2
Edge Browser
SageMaker
Studio
Open
Project
URL
(New
Browser)
[접속 URL]
- Studio ID : 고정 ID
- Studio User Profile Name : 사용자 고유 ID
[데이터 분석 Project 접속]
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Public Cloud 기반 분석 플랫폼 – Data Pipeline
15
On-prem (Oracle) Glue
S3
Glue
Catalog
Athena
SageMaker
WEB/WAS
RDS
On-prem
AWS Cloud
AWS
Direct Connect
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Public Cloud 기반 분석 플랫폼 – Analytics
16
SageMaker
Studio
Notebook
Model
Train
Pipeline
Wrangler
Athena
Deploy
AutoPilot
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Public Cloud 기반 분석 플랫폼 – Analytics
17
ML
Problem Raw Data
EDA (Exploratory Data Analysis)
Cleaning
Integration
Reduction
Sampling
Transformation
Feature Engineering
Data Splitting
Train Data Test Data
Model Training
Optimize model Prediction
Trained
Model
Model
Evaluation
New Data
Data
Preparation
Data
Preparation
Model Training
& Evaluation
Production
Machine Learning
Algorithms
Model Performance Monitoring
Training
Performance
Monitoring
Inference
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Public Cloud 기반 분석 플랫폼 – Model Pipeline
18
Pipelines Inference Pipeline
Train Pipeline
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
MLOps는 어떻게? - MWAA
19
Customer VPC Service VPC
Airflow Scheduler
Airflow Worker(s)
Airflow Web Server
Meta Database
Private
Network
Public
Network
Web Server
VPCE
Database
VPCE
DB Proxy
Amazon CloudWatch Amazon Simple
Storage Service (S3)
Amazon Simple
Queue Service
Amazon Elastic
Container Registry
AWS Key Management Service
/ / / /
/
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
MLOps는 어떻게? - MWAA
20
MWAA
Web Dashboard
Train DAG
Inference DAG
Monitoring
DAG
✓ 선행 작업 확인
✓ SageMaker Pipeline 호출
✓ 결과 확인
✓ 모델 저장
✓ Train DAG check
✓ SageMaker Pipeline 호출
✓ 추론
✓ 결과 저장
Model artifact
Inference result
✓ Inference DAG check
✓ SageMaker Pipeline 호출
✓ Metric 저장
Model metric
Re-train
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
MLOps는 어떻게? - MWAA
21
On-Premise AWS
데이터 레이크 (S3)
ODS MART
변경 데이터
ML 추론 결과
Project 공간
VPC (Subnet)
SageMaker
Project #N
모델, 소스코드
EDA/전처리/훈련
데이터 (Read/Write)
승인 받은 데이터 (Read only)
분석가 그룹
배포
Data Catalog
Glue (ETL)
Job ETLWorkflow
Managed Workflows for Apache Airflow (MWAA)
Glue
(ETL Job)
Airflow DAG
(PythonOperator)
1) ML Training Pipeline
2) ML Inference Pipeline
3) ML Monitoring Pipeline
전처리
Monitoring
Pipeline
Training
Pipeline
※ 배포
- Project ID
- Version
- …
Portal
1) PRD-PL-TRAIN-#PRJ
2) PRD-PL-INFERENCE-#PRJ
3) PRD-PL-MNTR-#PRJ
Inference
Pipeline
On-prem.(Oracle)
On-prem.(HDFS)
DAGs
[SageMaker Pipeline]
1) PL-TRAIN-#PRJ
2) PL-INFERENCE-#PRJ
3) PL-MNTR-#PRJ
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
MLOps는 어떻게? - MWAA
22
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
MLOps는 어떻게? - MWAA
23
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
실제로 효과가 있었을까?
24
Event Recommendation
User Event
Data Merge
Training
Stream Data
Recommend
Model
Data Processing
Modeling
Inference
Algorithm
Hyper
parameter
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
실제로 효과가 있었을까?
25
User Event
Data Merge
Stream Data
Recommend
Endpoint
Data Processing
Inference
Amazon
Personalize
✓ 필요한 서비스 컴포넌트에 대한 빠른 접근 가능
✓ 기존 운영중인 모델의 타당성 평가 가능
✓ 서비스에 적합하지 않은 경우, 즉시 철회 가능
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Next, all we need is MLOps
26
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Next, all we need is MLOps
27
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Next, all we need is MLOps
28
운영 2년차, 여전히 MLOps는 어려운 일이다.
Modeler Operator
여전히 운영 배포는 어려운 일이다.
운영중인 코드 수정 절차가 너무 복잡하다.
운영 이슈보다 모델링 코드 이슈가 더 많다.
모델링 코드도 코드리뷰가 필요하다.
AWS DATA ROADSHOW 2023
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Thank you!
1 sur 29

Contenu connexe

Tendances(20)

Similaire à KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Solutions Architect, AWS│이종혁, Analytics SA, WWSO, AWS ::: AWS Data Roadshow 2023(20)

Plus de Amazon Web Services Korea(12)

AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
Amazon Web Services Korea169 vues
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
Amazon Web Services Korea102 vues

KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Solutions Architect, AWS│이종혁, Analytics SA, WWSO, AWS ::: AWS Data Roadshow 2023

  • 1. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 강병억 Solutions Architect AWS KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 박창용 Data Scientist KB국민카드
  • 2. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 금융사에서 AWS를 사용하기란? 왜 Public Cloud에 분석플랫폼을? 어떤 서비스를 활용하는 것이 좋을까? MLOps는 어떻게? 실제로 효과가 있었을까? Next, All we need is MLOps 2
  • 3. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 금융사에서 AWS를 사용하기란? 3
  • 4. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 안전성 확보 조치를 위한 구성 고려 사항 4 계정관리 항목 접근통제 내부시스템/단말기 연계 암호화 및 키 관리 로깅 가상 환경 보안 보안 모니터링 및 취약점 분석 평가 인적 보안 안전성 확보조치 방안 예시 직무분리, 그룹별 권한 최소화, 작업로깅, IAM적용 VPC/subnet분리통한논리적망분리,보안그룹,NACL적용,암호화통신 전용선(Direct Connect)/VPN을 통한 구성 적용 암호키 관리, Column 암호화 적용, 안전한 암호화 알고리즘 사용 행위로그 및 보안로그를 기록 관리 가상환경 내 보안 기능 적용, 가상 자원 작업 검토 중요 로그 실시간 모니터링, 정기적인 취약점 점검 실시 내부 클라우드 서비스 이용자의 보안 교육 "클라우드서비스 관련 보안사고의 예방을 위해 계정관리, 접근통제 등 필수 보안 통제가 구현되도록 안전성 확보조치 방안을 수립하여 이행하여야 한다."
  • 5. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 클라우드 워크로드가 추가된다면? 5 최초의 클라우드 워크로드 서비스 계정 공통 계정 여러개의 워크로드가 추가됨 서비스 계정1 서비스 계정2 서비스 계정3 관리 계정 네트워크 계정
  • 6. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 금융사 AWS 클라우드의 특징 6 아키텍처 주요 특징 ❖ 인터넷 접속 제한 - 대고객 진입점을 제외하고는 인터넷 접속 제한 ❖ 멀티어카운트 구성 - 멀티어카운트 구조를 활용하여 일관되게 보안과 네트워크에 대한 정책을 적용 ❖ On-prem 보안 정책 준용 - On-prem 보안 정책과 동일한 보안 정책 적용을 위해서 방화벽, 접근제어, 암호화 등에 대해서 기존 3rd party 솔루션을 활용 ❖ 전용선 or VPN - Direct Connect를 이용하거나 VPN을 이용하여 암호화된 채널을 사용 K은행 K카드
  • 7. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 금융사의 데이터 레이크 기반 거버넌스 7 정형 데이터 반정형 데이터 Mobile Social Sensors POS terminals 비정형 데이터 Phone calls Images Videos Email 데이터 처리 AWS Glue 실시간 스트리밍 Amazon Kinesis Amazon S3 데이터 레이크 Amazon S3 Amazon Redshift Amazon Athena 분석 플랫폼 Amazon QuickSight Amazon EMR Amazon MSK 머신 러닝 Amazon SageMaker Amazon EMR Aurora RDS DynamoDB DocumentDB Neptune QLDB Timestream ElastiCache Keyspaces AWS DMS AWS Glue 데이터 카탈로그 AWS Transfer Family AWS Lake Formation 데이터 거버넌스 데이터 수집 Amazon Comprehend Amazon Textract Amazon Transcribe Amazon Translate Amazon Personalize Amazon FinSpace Amazon Neptune ERP CRM LOB applications
  • 8. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 금융사의 모던 데이터 메시 아키텍처 8 Raw AWS Lake Formation Glue Catalog 데이터 생산자 Account 1 Trusted Raw AWS Lake Formation Glue Catalog Trusted AWS Lake Formation Glue Catalog AWS Lake Formation Glue Catalog Amazon SageMaker AWS Lake Formation Glue Catalog Amazon Redshift Amazon Quicksight AWS Cloud Data Analyst Data Scientist Data Engineer Central Catalog 데이터 생산자 Account 2 데이터 소비자 Account 1 데이터 소비자 Account 2 Central Lake Account 데이터 페르소나 ❖ AWS기반의 모던 데이터 메시 아키텍처에서는 데이터 생산자와 데이터 소비자 간의 데이터 흐름을 표준화해서 데이터 거버넌스와 데이터 리니지 관리가 효율화됩니다
  • 9. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. KB국민카드, 클라우드 기반 분석플랫폼부터 MLOps까지 9
  • 10. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 분석 플랫폼이란? 10 사용자들이 필요한 데이터를 이용할 수 있고, 다양한 알고리즘을 실험할 수 있는 기반
  • 11. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 왜 Public Cloud에 분석플랫폼을? 11 ✓ SQL 전문가를 위한 SQL 엔진 ✓ Python / R 분석가를 위한 Jupyter Notebook/Lab, R Studio ✓ 분산 처리를 위한 Hadoop ✓ 실시간 데이터 서빙을 위한 Elastic Search ✓ 모니터링 대시보드 On-premise에도 분석플랫폼은 존재함
  • 12. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 왜 Public Cloud에 분석플랫폼을? 12 ▪ 자원 경합의 문제를 고민하지 않고 사용할 수 있는 분석 플랫폼 ▪ 분석을 마친 프로젝트의 자원 반납을 통해 비용 절감 ▪ 분석 성격에 맞는 컴퓨팅 리소스 선택 가능 (Large Memory, GPU) On-demand 분석 플랫폼 구성 가능 물리적인 서버에 대한 유지보수 필요 없음 Managed Service 활용 ▪ Robust Service 운영 가능 ▪ 신규 서비스 도입 lead time 감소 ▪ 하드웨어 돌발 상황 대처 용이 ▪ 소프트웨어 버전 관리 용이 ▪ 하드웨어 점검 및 유지보수 비용 감소
  • 13. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Public Cloud 기반 분석 플랫폼 13 On-Premise AWS Cloud (Seoul Region) MWAA(Managed Workflows for Apache Airflow) 포털 (WEB/WAS) RDS AZ1 AZ2 #2 VPC (Subnet) Notebook (Code) SageMaker Wrangler (UI) Project #1 #3 Athena (SQL) IAM ECS ECR 고급분석 & ML AWS API OnPrem.(Oracle) OnPrem.(HDFS) 분석가 그룹 데이터레이크 (S3) Raw Mart ML 관리 ML 결과 전처리 Athena SQL 기반 분석 Management (EC2) EC2 1) PyPI 서버 2) Docker 관리 서버 Lambda: Project 생성/변경/폐기 Pipeline 배포 ETL Job Workflow 생성, 관리 및 모니터링 ML Pipeline Job Workflow 1) ML 훈련 Job (+재학습) 2) ML 예측 결과 생성 Job 3) ML 모델 성능 모니터링 Job ※ Versioning - Model - Code - DataSet SageMaker AutoPilot AutoML (자동) 분석 Python Package Repository S3 Glue Catalog WAS Workflow 모니터링 다양한 실험/시도
  • 14. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Public Cloud 기반 분석 플랫폼 14 ▪ 데이터 분석을 진행하기 위해서 프로젝트 신청을 통해 AWS Resource 할당 S3 에 존재하는 DataSet 을 AWS SageMaker Studio 을 기반으로 AWS 의 다양한 기능들을 이용하여 분석을 진행 AWS Cloud VPC (Subnet) Portal EC2 SageMaker AWS Lambda IAM S3 AWS Boto3 API AWS Java API Parameter Response (JSON) LB AZ2 [데이터 분석 Project 생성] RDS MWAA Watch Alarm On-Premise 분석가 그룹 VPC (Subnet) Portal AWS Cloud EC2 Edge Browser SageMaker Studio Open Project URL (New Browser) [접속 URL] - Studio ID : 고정 ID - Studio User Profile Name : 사용자 고유 ID [데이터 분석 Project 접속]
  • 15. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Public Cloud 기반 분석 플랫폼 – Data Pipeline 15 On-prem (Oracle) Glue S3 Glue Catalog Athena SageMaker WEB/WAS RDS On-prem AWS Cloud AWS Direct Connect
  • 16. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Public Cloud 기반 분석 플랫폼 – Analytics 16 SageMaker Studio Notebook Model Train Pipeline Wrangler Athena Deploy AutoPilot
  • 17. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Public Cloud 기반 분석 플랫폼 – Analytics 17 ML Problem Raw Data EDA (Exploratory Data Analysis) Cleaning Integration Reduction Sampling Transformation Feature Engineering Data Splitting Train Data Test Data Model Training Optimize model Prediction Trained Model Model Evaluation New Data Data Preparation Data Preparation Model Training & Evaluation Production Machine Learning Algorithms Model Performance Monitoring Training Performance Monitoring Inference
  • 18. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Public Cloud 기반 분석 플랫폼 – Model Pipeline 18 Pipelines Inference Pipeline Train Pipeline
  • 19. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps는 어떻게? - MWAA 19 Customer VPC Service VPC Airflow Scheduler Airflow Worker(s) Airflow Web Server Meta Database Private Network Public Network Web Server VPCE Database VPCE DB Proxy Amazon CloudWatch Amazon Simple Storage Service (S3) Amazon Simple Queue Service Amazon Elastic Container Registry AWS Key Management Service / / / / /
  • 20. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps는 어떻게? - MWAA 20 MWAA Web Dashboard Train DAG Inference DAG Monitoring DAG ✓ 선행 작업 확인 ✓ SageMaker Pipeline 호출 ✓ 결과 확인 ✓ 모델 저장 ✓ Train DAG check ✓ SageMaker Pipeline 호출 ✓ 추론 ✓ 결과 저장 Model artifact Inference result ✓ Inference DAG check ✓ SageMaker Pipeline 호출 ✓ Metric 저장 Model metric Re-train
  • 21. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps는 어떻게? - MWAA 21 On-Premise AWS 데이터 레이크 (S3) ODS MART 변경 데이터 ML 추론 결과 Project 공간 VPC (Subnet) SageMaker Project #N 모델, 소스코드 EDA/전처리/훈련 데이터 (Read/Write) 승인 받은 데이터 (Read only) 분석가 그룹 배포 Data Catalog Glue (ETL) Job ETLWorkflow Managed Workflows for Apache Airflow (MWAA) Glue (ETL Job) Airflow DAG (PythonOperator) 1) ML Training Pipeline 2) ML Inference Pipeline 3) ML Monitoring Pipeline 전처리 Monitoring Pipeline Training Pipeline ※ 배포 - Project ID - Version - … Portal 1) PRD-PL-TRAIN-#PRJ 2) PRD-PL-INFERENCE-#PRJ 3) PRD-PL-MNTR-#PRJ Inference Pipeline On-prem.(Oracle) On-prem.(HDFS) DAGs [SageMaker Pipeline] 1) PL-TRAIN-#PRJ 2) PL-INFERENCE-#PRJ 3) PL-MNTR-#PRJ
  • 22. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps는 어떻게? - MWAA 22
  • 23. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. MLOps는 어떻게? - MWAA 23
  • 24. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 실제로 효과가 있었을까? 24 Event Recommendation User Event Data Merge Training Stream Data Recommend Model Data Processing Modeling Inference Algorithm Hyper parameter
  • 25. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 실제로 효과가 있었을까? 25 User Event Data Merge Stream Data Recommend Endpoint Data Processing Inference Amazon Personalize ✓ 필요한 서비스 컴포넌트에 대한 빠른 접근 가능 ✓ 기존 운영중인 모델의 타당성 평가 가능 ✓ 서비스에 적합하지 않은 경우, 즉시 철회 가능
  • 26. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Next, all we need is MLOps 26
  • 27. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Next, all we need is MLOps 27
  • 28. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Next, all we need is MLOps 28 운영 2년차, 여전히 MLOps는 어려운 일이다. Modeler Operator 여전히 운영 배포는 어려운 일이다. 운영중인 코드 수정 절차가 너무 복잡하다. 운영 이슈보다 모델링 코드 이슈가 더 많다. 모델링 코드도 코드리뷰가 필요하다.
  • 29. AWS DATA ROADSHOW 2023 © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Thank you!