SlideShare une entreprise Scribd logo
1  sur  43
Télécharger pour lire hors ligne
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS re:Invent Recap

데이터 과학자를 위한 AWS 신규 서비스 소개
소성운


Data Scientis
t

Croquis Inc.
목차
• 자기소개


• 지난 서비스 소개


• Amazon Sagemake
r
• Amazon Sagemaker Studi
o

• 신규 서비스 소개


• Amazon Sagemaker Pipeline
s
• Amazon Sagemaker Data Wrangler
 

• Amazon Sagemaker Feature Stor
e

• Amazon Sagemaker Clarify
자기소개
소성운 (Yan So
)

크로키닷컴 데이터사이언티스트


AWSKRUG 데이터사이언스 모임 운영진


AWS ML Her
o

주요 관심 분야


AI/ML, 데이터
Amazon Sagemaker
머신러닝 개발을 위한 완전 관리형 서비스 (2017)
쉽게 생성, 비교, 히스토리 추적

가능한 실험환경 제공
Amazon
SageMaker
Experiments
Amazon
SageMaker
Notebooks


모델학습 간 실시간 디버깅 및

알림기능
Amazon
SageMaker
Debugger
배포된 모델의 성과 및 유효성 모
니터링
Amazon
SageMaker Model
Monitor
Amazon
SageMaker
Autopilot


더 빨라진 협업을 위한 Pre-built
노트북 환경 제공
제어가능한 AutoML 기능
Amazon Sagemaker Studio
머신러닝 개발을 위한 IDE (2019)
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Sagemaker Pipelines
• 반복적인 프로세스 == 고통


• 데이터준비 -> 모델학습 -> 모델배포 -> 데이터준비 (…)
머신러닝 워크플로우 구축의 어려운점
Feature
Engineering
Prototyping and
Experimentation
Model Training
Model
Management and
Deployment
머신러닝 워크플로우 구축의 어려운점
• 프로덕션 단계의 배포를 위해 많은 과정이 존재


• 단계별 코드 관리 - 데이터처리, 학습, 튜닝 등등


• 단계별 디펜던시 관리


• 각 단계를 구조화하여 워크플로우화


• 워크플로우 관리


• 워크플로우 단계별 산출물 관리


• 모델 버전관리 및 배포


• 스케일러블한 자동화 환경 구축
Troubleshooting?
Workflow?
Version Management?
Large scale?
Engineering?
Automation?
Compliance?
프로덕션 ML모델 관리 == MLOps
Amazon Sagemaker Pipelines
Source: https://virtual.awsevents.com/media/1_k1w14u7g
Amazon Sagemaker Pipelines
• 워크플로우 구성을 위한 Python SDK 제공


• 시각화된 워크플로우를 Sagemaker Studio
상에서 제공


• 데이터변환, 모델학습, 디버깅, 최적화를 포함
한 모든 과정들을 관리
워크플로우 구성 및 관리
class MyPipeline(dsl.Pipeline):

# Pipeline parameter definitions

training_instance = PipelineParam(string)

num_trees = PipelineParam(int, default=100)

tree_depth = PipelineParam(int, default=3
)

# Example data query step

get_input_data_step = AthenaStep(query="SELECT a,b,c FROM table_xyz”
)

# Example training step


training_step = XGBoostStep(

entry_point='scripts/xgb/train.py’, 

source_dir='scripts/xgb’
,

instance_type=training_instance
,

env_vars=[num_trees, tree_depth],

inputs={'train': processing_step.outputs(‘clean_data')}
)
Amazon Sagemaker Pipelines
• 단계별 진행중, 진행완료 상태 시각화 제공


• 단계별 결과와 관련 로그 제공


• 단계별 파라미터 변경, 관리 및 모니터링
파이프라인 상태 시각화 실시간 제공
Amazon Sagemaker Pipelines
• 학습완료 한 모델을 관리하는 저장소


• 여러모델, 모델별 버전 관리 및 모델 평가 메트
릭 같은 메타정보도 함께 저장되고 관리


• Python SDK나 Sagemaker Studio에서 접
근 가능


• 멀티계정 지원
모델을 관리하는 모델 레지스트리
Amazon Sagemaker Pipelines
• 모델 자동 배포를 위한 CI/CD 리소스 제공


• 스케일러블한 ML파이프라인 오케이스트레이션


• 모델성능 유지를 위한 모델 최신화
CI/CD 파이프라인 수행으로 모델 최신화
요약
아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다
!

• 제공되는 CI/CD 템플릿을 이용하여 ML 워크플로우 구성 및 관리


• 수천+개의 프로덕션 모델 관리


• 버젼별 모델관리 및 사용 환경 제공
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Sagemaker Data Wrangler
• 전체 과정의 80%이상 소요될 만큼 많은 시간이 소요됨


• 데이터 셀렉션, 클리닝, 피쳐 엔지니어링, 시각화, 모델 프로토타이핑 등 많은 작업과
해당 작업을 위한 툴이 요구됨


• Missing Values, Outlier Detection 같은 간단해 보이는 작업도 코드로 작성이 되
고 관리되어야함


• 프로덕션 단계로 전환 시 위에 관리하던 코드가 다른작업자에 의해 재작업되는 경우
가 많음 (DS가 친숙한 Pandas 에서 DE가 친숙한 Spark
)

• 불필요한 재작업과 의도치 않은 실수들이 일어날 수 있음
머신러닝을 위한 데이터 준비의 어려운점
Amazon Sagemaker Data Wrangler
Source: https://virtual.awsevents.com/media/1_uip4lhkf
Amazon Sagemaker Data Wrangler
• Amazon Athena, Redshift, AWS Lake
Formation, Amazon S3, Feature Store 등
다양한 소스에서 데이터 조회 지원


• 별도 준비과정 없이 Sagemaker Studio 내에
서 직접 쿼리 가능


• CSV, Parquet, 데이터베이스 테이블 등 다양
한 데이터 포맷 지원
다양한 데이터소스에서 빠른 쿼리 지원
Amazon Sagemaker Data Wrangler
• 빌트인 데이터 변환 옵션을 제공하여 콘솔상에
서 쿼리 작성없이 처리 가능


• 컬럼 타입변경, 이름변경, 삭제, Missing
Value, Outlier 처리 등 많이 수행하는 데이터
처리를 포함하는 300+ 빌트인 데이터 변환 옵
션 제공


• Pyspark, SQL, Pandas 환경 내 커스텀 데
이터 변환 가능
손쉬운 데이터 변환
Amazon Sagemaker Data Wrangler
• 데이터 시각화를 제공하여 직관적인 이해를 도
움


• Histogram, Scatter Plot, Box Plot 등 데이
터 시각화 템플릿 제공


• Sagemaker Studio 콘솔상에서 인터랙티브
하게 생성 및 수정이 가능하고 이상치나
Outlier 같은 값들을 빠르게 파악 가능
손쉬운 데이터 시각화
Amazon Sagemaker Data Wrangler
• 프로덕션에 배포 전 데이터 준비과정 중 이상점
발견 가능


• 샘플링 한 데이터를 바탕으로 모델 성능에 영향
을 주는 핵심 Feature 들을 발견


• 모델 성능 향상을 위해 탐색적인 Feature 탐색
환경을 제공
모델 성능에 대한 빠른 예측
Amazon Sagemaker Data Wrangler
• 데이터 전처리 워크플로우를 노트북이나
Python 코드로 Export 가능


• 전처리 워크플로우를 Sagemaker Pipelines
에 통합하여 자동화 관리 가능


• 전처리의 결과인 Feature들을 Feature
Store에 배포하여 재사용 및 공유 가능
손쉬운 프로덕션 배포
요약
아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다
!

• ML 데이터 준비를 위한 워크플로우를 가시적이고 운영가능한 형태로 제공


• 쿼리 없이 빠르게 데이터 조회 가능


• 전처리 및 변환
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Sagemaker Feature Store
• Feature 는 모델의 입력값


• 대부분의 ML모델은 Feature로 숫자 벡터를 가짐


• Raw Data => 코드화=> Feature Vecto
r

• Feature는 간단한 indecator 형태일 수 있고, Matrix Factorization 같은 복잡한 형태일
수 있음


• Feature의 형태나 처리과정을 Feature Engineering이라고 하고, 이런 과정의 결과는
모델의 성능에 많은 영향을 줌


• ML워크플로우 상에서는 모델 학습 전 데이터전처리 단계에 속함
Feature 와 Feature Engineering 의 중요성
• 복잡한 연산, 길고 지루한 작업 + 반복적인 작업


• 처리된 결과를 재사용 혹은 공유하기 어려움


• 만들어진 Feature 들을 사용하기 위해 재작업이 필요할 수 있음


• ML 환경: Python or SQL 같은 언어로 처리


• Production 환경: Java, C++ 같은 언어로 처리


• 변환과정에서 의도치하는 다른점이 생길 수 있음 => 모델 성과에 영향을 줌


• 프로덕션에 운영중인 모델이 문제가 있을 경우 트러블 슈팅의 어려움
Feature Engineering 의 어려운점
Amazon Sagemaker Feature Store
Source: https://virtual.awsevents.com/media/1_96ejbx62
Feature Store 가 없다면?
Amazon Sagemaker Feature Store
Source: https://virtual.awsevents.com/media/1_96ejbx62
Feature Store 가 있다면?
Amazon Sagemaker Feature Store
Data Ingestion
• Streaming Ingestio
n

• 스트리밍 처리를 위한 API 제공


• Online/Offline Feature Store 에 저장


• 데이터 검증 작업 제공


• Batch Ingestio
n

• Sagemaker Custom Spark Container 제공


• Online/Offline Feature Store 에 저장


• 데이터 검증 작업 제공
Amazon Sagemaker Feature Store
Online and Offline Store
• Online Feature Stor
e

• 스트리밍 처리를 위한 API 제공


• 최신의 Feature 데이터


• ms단위의 데이터 동기 지연


• Offline Feature Stor
e

• Feature 의 Historical 데이터


• 15분이내의 데이터 동기 지연


• Sagemaker Custom Spark Container 제공
요약
아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다
!

• Feature 들을 관리하는 중앙저장소를 제공하고 여러 Endpoint 에서 사용할 수 있도록 함


• 학습모델과 프로덕션모델의 데이터 불일치로 인한 문제를 해결하고, 학습단계에서 Feature
에 대한 중요정보 제공


• Feature Engineering 의 버전 관리
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Sagemaker Clarify
• ML모델은 문제 해결을 위함이고, 문제를 해결하는 모델이나 데이터 자체의 내재된
편향성을 이해하는것은 중요


• ML모델을 통한 결과를 사용하는 내/외부 인원은 ML의 전문가가 아님


• 설명가능한 형태의 정보를 전달하는게 중요
 

• 법이나 규정을 준수하기 위해
설명가능한 ML모델와 Bias Detection의 중요성
설명가능성을 갖추기는 어려운 작업
• 모델의 성능과 설명가능성은 Trade-of
f

• 설명가능성을 위한 다양한 알고리즘과 테크닉이 존재


• 최적의 방법은
?

• Perturbations-based Algorith
m
• Ablation/Permutation-based Algorith
m

• Gradient-based Algorith
m

• Neuron Activation
s

• Sensitive Analysi
s

• Saliency Mask
s

• Rule Extractio
n

• 어떻게 효과적으로 전달할것인가?
Source: https://virtual.awsevents.com/media/1_49n1ghzz
Amazon Sagemaker Clarify
Source: https://virtual.awsevents.com/media/1_49n1ghzz
Amazon Sagemaker Clarify
데이터전처리 단계: Bias Reporting
Amazon Sagemaker Clarify
모델학습 이후: Bias Reporting
Amazon Sagemaker Clarify
모델학습 이후: Model Explanation
Amazon Sagemaker Clarify
모델배포 이후: Bias Drift
Amazon Sagemaker Clarify
모델배포 이후: Explainability Drift
요약
아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다
!

• 데이터 준비단계에서 데이터의 불균형이나 Bias를 발견


• 학습데이터에 대한 Bias를 발견


• 배포한 모델에 대한 Bias를 발견
AWS re:invent 2020 추천세션
[NEW LAUNCH!] Accelerate data preparation with Amazon SageMaker Data Wrangler


ML을 위한 완전 통합관리형 개발 환경인 Amazon Sagemaker Studio에 추가된 Data Wrangler 소개 세션입니다
.

[NEW LAUNCH!] Understand ML model predictions and biases with Amazon SageMaker Clarify


ML Workflow 전반에서 데이터의 Bias나 불균형 감지나 모델의 메트릭을 설명 가능한 형태로 제공합니다
.

[NEW LAUNCH!] Amazon SageMaker Feature Store: Store, discover, and share features for ML apps


이제 번거롭고 반복적인 Feature Engineering 작업과 결과물을 Amazon Sagemaker 내에서 효율적으로 관리해보세요
!

[NEW LAUNCH!] How to create fully automated ML workflows with Amazon SageMaker Pipelines


MLOps in Amazon Sagemaker! 이제 Sagemaker Studio에서 모든 ML 파이프라인을 관리할 수 있습니다
!

Productionizing R workloads using Amazon SageMaker


R로도 프로덕션 레벨의 ML모델 개발하기. Sagemaker에서 내가 원하는 커스텀환경을 갖추고 사용하는 사례입니다.
감사합니다!
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.

Contenu connexe

Tendances

Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017
Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017
Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017
Amazon Web Services Korea
 
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
Amazon Web Services Korea
 

Tendances (20)

워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안
워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안
워크로드 특성에 따른 안전하고 효율적인 Data Lake 운영 방안
 
Amazon SageMaker 모델 학습 방법 소개::최영준, 솔루션즈 아키텍트 AI/ML 엑스퍼트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 학습 방법 소개::최영준, 솔루션즈 아키텍트 AI/ML 엑스퍼트, AWS::AWS AIML 스페셜 웨비나Amazon SageMaker 모델 학습 방법 소개::최영준, 솔루션즈 아키텍트 AI/ML 엑스퍼트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 학습 방법 소개::최영준, 솔루션즈 아키텍트 AI/ML 엑스퍼트, AWS::AWS AIML 스페셜 웨비나
 
AWS Fargate on EKS 실전 사용하기
AWS Fargate on EKS 실전 사용하기AWS Fargate on EKS 실전 사용하기
AWS Fargate on EKS 실전 사용하기
 
AWS Black Belt Techシリーズ AWS Lambda
AWS Black Belt Techシリーズ AWS LambdaAWS Black Belt Techシリーズ AWS Lambda
AWS Black Belt Techシリーズ AWS Lambda
 
Amazon Personalize 소개 (+ 실습 구성)::김영진, 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon Personalize 소개 (+ 실습 구성)::김영진, 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon Personalize 소개 (+ 실습 구성)::김영진, 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon Personalize 소개 (+ 실습 구성)::김영진, 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
 
Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017
Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017
Amazon ECS를 통한 도커 기반 콘테이너 서비스 구축하기 - AWS Summit Seoul 2017
 
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
 
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
AWS 고객이 주로 겪는 운영 이슈에 대한 해법-AWS Summit Seoul 2017
 
AWS for Games - 게임만을 위한 AWS 서비스 길라잡이 (레벨 200) - 진교선, 솔루션즈 아키텍트, AWS ::: Game...
AWS for Games - 게임만을 위한 AWS 서비스 길라잡이 (레벨 200) - 진교선, 솔루션즈 아키텍트, AWS :::  Game...AWS for Games - 게임만을 위한 AWS 서비스 길라잡이 (레벨 200) - 진교선, 솔루션즈 아키텍트, AWS :::  Game...
AWS for Games - 게임만을 위한 AWS 서비스 길라잡이 (레벨 200) - 진교선, 솔루션즈 아키텍트, AWS ::: Game...
 
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
농심 그룹 메가마트 : 온프레미스 Exadata의 AWS 클라우드 환경 전환 사례 공유-김동현, NDS Cloud Innovation Ce...
 
20200630 AWS Black Belt Online Seminar Amazon Cognito
20200630 AWS Black Belt Online Seminar Amazon Cognito20200630 AWS Black Belt Online Seminar Amazon Cognito
20200630 AWS Black Belt Online Seminar Amazon Cognito
 
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
DMS와 SCT를 활용한 Oracle에서 Open Source DB로의 전환
 
AWS Black Belt Techシリーズ AWS Key Management Service
AWS Black Belt Techシリーズ AWS Key Management ServiceAWS Black Belt Techシリーズ AWS Key Management Service
AWS Black Belt Techシリーズ AWS Key Management Service
 
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
Amazon OpenSearch Deep dive - 내부구조, 성능최적화 그리고 스케일링
 
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
AWS Personalize 중심으로 살펴본 추천 시스템 원리와 구축
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
 
Running Containers Without Servers: Introduction to AWS Fargate - SRV214 - At...
Running Containers Without Servers: Introduction to AWS Fargate - SRV214 - At...Running Containers Without Servers: Introduction to AWS Fargate - SRV214 - At...
Running Containers Without Servers: Introduction to AWS Fargate - SRV214 - At...
 
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
 
복잡한 권한신청문제 ConsoleMe로 해결하기 - 손건 (AB180) :: AWS Community Day Online 2021
복잡한 권한신청문제 ConsoleMe로 해결하기 - 손건 (AB180) :: AWS Community Day Online 2021복잡한 권한신청문제 ConsoleMe로 해결하기 - 손건 (AB180) :: AWS Community Day Online 2021
복잡한 권한신청문제 ConsoleMe로 해결하기 - 손건 (AB180) :: AWS Community Day Online 2021
 
쿠버네티스를 이용한 기능 브랜치별 테스트 서버 만들기 (GitOps CI/CD)
쿠버네티스를 이용한 기능 브랜치별 테스트 서버 만들기 (GitOps CI/CD)쿠버네티스를 이용한 기능 브랜치별 테스트 서버 만들기 (GitOps CI/CD)
쿠버네티스를 이용한 기능 브랜치별 테스트 서버 만들기 (GitOps CI/CD)
 

Plus de Amazon Web Services Korea

Plus de Amazon Web Services Korea (20)

AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
 
AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
 
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
사례로 알아보는 Database Migration Service : 데이터베이스 및 데이터 이관, 통합, 분리, 분석의 도구 - 발표자: ...
 
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
Amazon DocumentDB - Architecture 및 Best Practice (Level 200) - 발표자: 장동훈, Sr. ...
 
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
Amazon Elasticache - Fully managed, Redis & Memcached Compatible Service (Lev...
 
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
Internal Architecture of Amazon Aurora (Level 400) - 발표자: 정달영, APAC RDS Speci...
 
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
[Keynote] 슬기로운 AWS 데이터베이스 선택하기 - 발표자: 강민석, Korea Database SA Manager, WWSO, A...
 
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
Demystify Streaming on AWS - 발표자: 이종혁, Sr Analytics Specialist, WWSO, AWS :::...
 
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
Amazon EMR - Enhancements on Cost/Performance, Serverless - 발표자: 김기영, Sr Anal...
 
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
Amazon OpenSearch - Use Cases, Security/Observability, Serverless and Enhance...
 
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO,...
 
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
Amazon Redshift Deep Dive - Serverless, Streaming, ML, Auto Copy (New feature...
 
From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...From Insights to Action, How to build and maintain a Data Driven Organization...
From Insights to Action, How to build and maintain a Data Driven Organization...
 
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
[Keynote] Accelerating Business Outcomes with AWS Data - 발표자: Saeed Gharadagh...
 
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
Amazon DynamoDB - Use Cases and Cost Optimization - 발표자: 이혁, DynamoDB Special...
 
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
LG전자 - Amazon Aurora 및 RDS 블루/그린 배포를 이용한 데이터베이스 업그레이드 안정성 확보 - 발표자: 이은경 책임, L...
 
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
KB국민카드 - 클라우드 기반 분석 플랫폼 혁신 여정 - 발표자: 박창용 과장, 데이터전략본부, AI혁신부, KB카드│강병억, Soluti...
 
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
SK Telecom - 망관리 프로젝트 TANGO의 오픈소스 데이터베이스 전환 여정 - 발표자 : 박승전, Project Manager, ...
 
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
코리안리 - 데이터 분석 플랫폼 구축 여정, 그 시작과 과제 - 발표자: 김석기 그룹장, 데이터비즈니스센터, 메가존클라우드 ::: AWS ...
 
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
LG 이노텍 - Amazon Redshift Serverless를 활용한 데이터 분석 플랫폼 혁신 과정 - 발표자: 유재상 선임, LG이노...
 

데이터 과학자를 위한 AWS 신규 서비스 소개 - 소성운 데이터사이언티스트, 크로키닷컴

  • 1. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS re:Invent Recap
 데이터 과학자를 위한 AWS 신규 서비스 소개 소성운 Data Scientis t Croquis Inc.
  • 2. 목차 • 자기소개 • 지난 서비스 소개 • Amazon Sagemake r • Amazon Sagemaker Studi o • 신규 서비스 소개 • Amazon Sagemaker Pipeline s • Amazon Sagemaker Data Wrangler • Amazon Sagemaker Feature Stor e • Amazon Sagemaker Clarify
  • 3. 자기소개 소성운 (Yan So ) 크로키닷컴 데이터사이언티스트 AWSKRUG 데이터사이언스 모임 운영진 AWS ML Her o 주요 관심 분야 AI/ML, 데이터
  • 4. Amazon Sagemaker 머신러닝 개발을 위한 완전 관리형 서비스 (2017)
  • 5. 쉽게 생성, 비교, 히스토리 추적
 가능한 실험환경 제공 Amazon SageMaker Experiments Amazon SageMaker Notebooks 모델학습 간 실시간 디버깅 및
 알림기능 Amazon SageMaker Debugger 배포된 모델의 성과 및 유효성 모 니터링 Amazon SageMaker Model Monitor Amazon SageMaker Autopilot 더 빨라진 협업을 위한 Pre-built 노트북 환경 제공 제어가능한 AutoML 기능 Amazon Sagemaker Studio 머신러닝 개발을 위한 IDE (2019)
  • 6. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Sagemaker Pipelines
  • 7. • 반복적인 프로세스 == 고통 • 데이터준비 -> 모델학습 -> 모델배포 -> 데이터준비 (…) 머신러닝 워크플로우 구축의 어려운점 Feature Engineering Prototyping and Experimentation Model Training Model Management and Deployment
  • 8. 머신러닝 워크플로우 구축의 어려운점 • 프로덕션 단계의 배포를 위해 많은 과정이 존재 • 단계별 코드 관리 - 데이터처리, 학습, 튜닝 등등 • 단계별 디펜던시 관리 • 각 단계를 구조화하여 워크플로우화 • 워크플로우 관리 • 워크플로우 단계별 산출물 관리 • 모델 버전관리 및 배포 • 스케일러블한 자동화 환경 구축 Troubleshooting? Workflow? Version Management? Large scale? Engineering? Automation? Compliance? 프로덕션 ML모델 관리 == MLOps
  • 9. Amazon Sagemaker Pipelines Source: https://virtual.awsevents.com/media/1_k1w14u7g
  • 10. Amazon Sagemaker Pipelines • 워크플로우 구성을 위한 Python SDK 제공 • 시각화된 워크플로우를 Sagemaker Studio 상에서 제공 • 데이터변환, 모델학습, 디버깅, 최적화를 포함 한 모든 과정들을 관리 워크플로우 구성 및 관리 class MyPipeline(dsl.Pipeline):
 # Pipeline parameter definitions
 training_instance = PipelineParam(string)
 num_trees = PipelineParam(int, default=100)
 tree_depth = PipelineParam(int, default=3 ) # Example data query step
 get_input_data_step = AthenaStep(query="SELECT a,b,c FROM table_xyz” ) # Example training step training_step = XGBoostStep(
 entry_point='scripts/xgb/train.py’, 
 source_dir='scripts/xgb’ , instance_type=training_instance , env_vars=[num_trees, tree_depth],
 inputs={'train': processing_step.outputs(‘clean_data')} )
  • 11. Amazon Sagemaker Pipelines • 단계별 진행중, 진행완료 상태 시각화 제공 • 단계별 결과와 관련 로그 제공 • 단계별 파라미터 변경, 관리 및 모니터링 파이프라인 상태 시각화 실시간 제공
  • 12. Amazon Sagemaker Pipelines • 학습완료 한 모델을 관리하는 저장소 • 여러모델, 모델별 버전 관리 및 모델 평가 메트 릭 같은 메타정보도 함께 저장되고 관리 • Python SDK나 Sagemaker Studio에서 접 근 가능 • 멀티계정 지원 모델을 관리하는 모델 레지스트리
  • 13. Amazon Sagemaker Pipelines • 모델 자동 배포를 위한 CI/CD 리소스 제공 • 스케일러블한 ML파이프라인 오케이스트레이션 • 모델성능 유지를 위한 모델 최신화 CI/CD 파이프라인 수행으로 모델 최신화
  • 14. 요약 아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다 ! • 제공되는 CI/CD 템플릿을 이용하여 ML 워크플로우 구성 및 관리 • 수천+개의 프로덕션 모델 관리 • 버젼별 모델관리 및 사용 환경 제공
  • 15. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Sagemaker Data Wrangler
  • 16. • 전체 과정의 80%이상 소요될 만큼 많은 시간이 소요됨 • 데이터 셀렉션, 클리닝, 피쳐 엔지니어링, 시각화, 모델 프로토타이핑 등 많은 작업과 해당 작업을 위한 툴이 요구됨 • Missing Values, Outlier Detection 같은 간단해 보이는 작업도 코드로 작성이 되 고 관리되어야함 • 프로덕션 단계로 전환 시 위에 관리하던 코드가 다른작업자에 의해 재작업되는 경우 가 많음 (DS가 친숙한 Pandas 에서 DE가 친숙한 Spark ) • 불필요한 재작업과 의도치 않은 실수들이 일어날 수 있음 머신러닝을 위한 데이터 준비의 어려운점
  • 17. Amazon Sagemaker Data Wrangler Source: https://virtual.awsevents.com/media/1_uip4lhkf
  • 18. Amazon Sagemaker Data Wrangler • Amazon Athena, Redshift, AWS Lake Formation, Amazon S3, Feature Store 등 다양한 소스에서 데이터 조회 지원 • 별도 준비과정 없이 Sagemaker Studio 내에 서 직접 쿼리 가능 • CSV, Parquet, 데이터베이스 테이블 등 다양 한 데이터 포맷 지원 다양한 데이터소스에서 빠른 쿼리 지원
  • 19. Amazon Sagemaker Data Wrangler • 빌트인 데이터 변환 옵션을 제공하여 콘솔상에 서 쿼리 작성없이 처리 가능 • 컬럼 타입변경, 이름변경, 삭제, Missing Value, Outlier 처리 등 많이 수행하는 데이터 처리를 포함하는 300+ 빌트인 데이터 변환 옵 션 제공 • Pyspark, SQL, Pandas 환경 내 커스텀 데 이터 변환 가능 손쉬운 데이터 변환
  • 20. Amazon Sagemaker Data Wrangler • 데이터 시각화를 제공하여 직관적인 이해를 도 움 • Histogram, Scatter Plot, Box Plot 등 데이 터 시각화 템플릿 제공 • Sagemaker Studio 콘솔상에서 인터랙티브 하게 생성 및 수정이 가능하고 이상치나 Outlier 같은 값들을 빠르게 파악 가능 손쉬운 데이터 시각화
  • 21. Amazon Sagemaker Data Wrangler • 프로덕션에 배포 전 데이터 준비과정 중 이상점 발견 가능 • 샘플링 한 데이터를 바탕으로 모델 성능에 영향 을 주는 핵심 Feature 들을 발견 • 모델 성능 향상을 위해 탐색적인 Feature 탐색 환경을 제공 모델 성능에 대한 빠른 예측
  • 22. Amazon Sagemaker Data Wrangler • 데이터 전처리 워크플로우를 노트북이나 Python 코드로 Export 가능 • 전처리 워크플로우를 Sagemaker Pipelines 에 통합하여 자동화 관리 가능 • 전처리의 결과인 Feature들을 Feature Store에 배포하여 재사용 및 공유 가능 손쉬운 프로덕션 배포
  • 23. 요약 아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다 ! • ML 데이터 준비를 위한 워크플로우를 가시적이고 운영가능한 형태로 제공 • 쿼리 없이 빠르게 데이터 조회 가능 • 전처리 및 변환
  • 24. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Sagemaker Feature Store
  • 25. • Feature 는 모델의 입력값 • 대부분의 ML모델은 Feature로 숫자 벡터를 가짐 • Raw Data => 코드화=> Feature Vecto r • Feature는 간단한 indecator 형태일 수 있고, Matrix Factorization 같은 복잡한 형태일 수 있음 • Feature의 형태나 처리과정을 Feature Engineering이라고 하고, 이런 과정의 결과는 모델의 성능에 많은 영향을 줌 • ML워크플로우 상에서는 모델 학습 전 데이터전처리 단계에 속함 Feature 와 Feature Engineering 의 중요성
  • 26. • 복잡한 연산, 길고 지루한 작업 + 반복적인 작업 • 처리된 결과를 재사용 혹은 공유하기 어려움 • 만들어진 Feature 들을 사용하기 위해 재작업이 필요할 수 있음 • ML 환경: Python or SQL 같은 언어로 처리 • Production 환경: Java, C++ 같은 언어로 처리 • 변환과정에서 의도치하는 다른점이 생길 수 있음 => 모델 성과에 영향을 줌 • 프로덕션에 운영중인 모델이 문제가 있을 경우 트러블 슈팅의 어려움 Feature Engineering 의 어려운점
  • 27. Amazon Sagemaker Feature Store Source: https://virtual.awsevents.com/media/1_96ejbx62 Feature Store 가 없다면?
  • 28. Amazon Sagemaker Feature Store Source: https://virtual.awsevents.com/media/1_96ejbx62 Feature Store 가 있다면?
  • 29. Amazon Sagemaker Feature Store Data Ingestion • Streaming Ingestio n • 스트리밍 처리를 위한 API 제공 • Online/Offline Feature Store 에 저장 • 데이터 검증 작업 제공 • Batch Ingestio n • Sagemaker Custom Spark Container 제공 • Online/Offline Feature Store 에 저장 • 데이터 검증 작업 제공
  • 30. Amazon Sagemaker Feature Store Online and Offline Store • Online Feature Stor e • 스트리밍 처리를 위한 API 제공 • 최신의 Feature 데이터 • ms단위의 데이터 동기 지연 • Offline Feature Stor e • Feature 의 Historical 데이터 • 15분이내의 데이터 동기 지연 • Sagemaker Custom Spark Container 제공
  • 31. 요약 아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다 ! • Feature 들을 관리하는 중앙저장소를 제공하고 여러 Endpoint 에서 사용할 수 있도록 함 • 학습모델과 프로덕션모델의 데이터 불일치로 인한 문제를 해결하고, 학습단계에서 Feature 에 대한 중요정보 제공 • Feature Engineering 의 버전 관리
  • 32. © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Sagemaker Clarify
  • 33. • ML모델은 문제 해결을 위함이고, 문제를 해결하는 모델이나 데이터 자체의 내재된 편향성을 이해하는것은 중요 • ML모델을 통한 결과를 사용하는 내/외부 인원은 ML의 전문가가 아님 • 설명가능한 형태의 정보를 전달하는게 중요 • 법이나 규정을 준수하기 위해 설명가능한 ML모델와 Bias Detection의 중요성
  • 34. 설명가능성을 갖추기는 어려운 작업 • 모델의 성능과 설명가능성은 Trade-of f • 설명가능성을 위한 다양한 알고리즘과 테크닉이 존재 • 최적의 방법은 ? • Perturbations-based Algorith m • Ablation/Permutation-based Algorith m • Gradient-based Algorith m • Neuron Activation s • Sensitive Analysi s • Saliency Mask s • Rule Extractio n • 어떻게 효과적으로 전달할것인가? Source: https://virtual.awsevents.com/media/1_49n1ghzz
  • 35. Amazon Sagemaker Clarify Source: https://virtual.awsevents.com/media/1_49n1ghzz
  • 37. Amazon Sagemaker Clarify 모델학습 이후: Bias Reporting
  • 38. Amazon Sagemaker Clarify 모델학습 이후: Model Explanation
  • 40. Amazon Sagemaker Clarify 모델배포 이후: Explainability Drift
  • 41. 요약 아래 내용 모두 Amazon Sagemaker Studio 내에서 가능합니다 ! • 데이터 준비단계에서 데이터의 불균형이나 Bias를 발견 • 학습데이터에 대한 Bias를 발견 • 배포한 모델에 대한 Bias를 발견
  • 42. AWS re:invent 2020 추천세션 [NEW LAUNCH!] Accelerate data preparation with Amazon SageMaker Data Wrangler ML을 위한 완전 통합관리형 개발 환경인 Amazon Sagemaker Studio에 추가된 Data Wrangler 소개 세션입니다 . [NEW LAUNCH!] Understand ML model predictions and biases with Amazon SageMaker Clarify ML Workflow 전반에서 데이터의 Bias나 불균형 감지나 모델의 메트릭을 설명 가능한 형태로 제공합니다 . [NEW LAUNCH!] Amazon SageMaker Feature Store: Store, discover, and share features for ML apps 이제 번거롭고 반복적인 Feature Engineering 작업과 결과물을 Amazon Sagemaker 내에서 효율적으로 관리해보세요 ! [NEW LAUNCH!] How to create fully automated ML workflows with Amazon SageMaker Pipelines MLOps in Amazon Sagemaker! 이제 Sagemaker Studio에서 모든 ML 파이프라인을 관리할 수 있습니다 ! Productionizing R workloads using Amazon SageMaker R로도 프로덕션 레벨의 ML모델 개발하기. Sagemaker에서 내가 원하는 커스텀환경을 갖추고 사용하는 사례입니다.
  • 43. 감사합니다! © 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.