Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO, AWS ::: AWS Data Roadshow 2023

Amazon Web Services Korea
Amazon Web Services KoreaAmazon Web Services Korea
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Sungyeon Kim
Analytics Solutions Architect
AWS
Enabling agility with
data governance on
AWS
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
데이터 기반을 위한 데이터 거버넌스
AWS Analytics 서비스 기반의 데이터 거버넌스 패턴
Amazon DataZone 소개
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 기반에 대한 고객의 목소리
트 랜 스 포 메 이 션 은 도 전 적 이 며 , 강 력 한 비 전 과 새 로 운 문 화 , 기 술 과 테 크 놀 로 지 를 필 요 로 합 니 다 .
스폰서십과 비즈니스
케이스 확보
유즈케이스 확보 및
우선순위 결정
기술과 테크놀로지
상의 격차
”위대함”에 대한 이해와
공감
데이터 기반 문화
조성
데이터 보안, 개인정보 보호,
규정 준수 및 거버넌스
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 거버넌스는
데이터 기반을 위한 필수 요소
“조직은 효율적이고 효과적인 데이터
거버넌스 액티비티에 대한 지식이
부족합니다. 데이터 거버넌스에 소요되는
시간 중 30%는 낭비되는 시간입니다.”
IDC
데이터 거버넌스는 더 이상 기업 조직에서
선택사항이 아닙니다. 이제 기업들은
데이터의 가치를 깨닫고 있으며 데이터가
자산가치 증대를 위하여 보호되고
관리되고 유지되어야 하는 자산임을
깨닫고 있습니다.”
IDC
의 기업이 데이터
기반이 되기를 원함
85%
Stat Source: Forbes Online; New Vantage Partners – Big Data Executive Survey
단
37% 만 성공
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
정의
데이터 거버넌스는 조직이 비즈니스
가치 창출을 목적으로 데이터의
수명주기 동안 데이터의 품질 및 적절한
처리 보장을 위해 사용되는 정책,
프로세스 및 시스템의 집합
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터
수명주기
보안, 저장 및
암호화
수집
및
통합
데이터 품질
데이터 큐레이션, 통합
및 리니지
데이터
프로파일링
비즈니스
전략
데이터
분류
카탈로그 및
공유
운영 모델
사람, 프로세스,
테크놀로지
데이터 거버넌스는 비즈니스에서 시작
생산자
“데이터 공유를
원하는 팀”
소비자
“데이터 사용을
원하는 팀”
관리, 제어 및
최적화
보안, 저장 및
암호화
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 서비스를
어떻게 활용할 것인가?
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 파이프라인 전체에 걸친 데이터 거버넌스
Amazon S3 AWS Glue Data Catalog
and AWS Lake Formation
#1: 데이터 수집, 분류 및 품질 자동화
재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터
품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별
태깅규칙 설정
#2 데이터 사용 가능하도록 카탈로그 구성
지속적 데이터 카탈로그 관리를 통해 데이터가 쉽게
검색, 해당 데이터에 대한 접근 요청 가능 및 결과적으로
데이터가 의사 결정을 위해 사용
#3 데이터 소비자에게 데이터 공유
데이터를 공유받은 데이터 소비자가
새로운 인사이트 구축
수집
저장
새로운 데이터 상품 게시
생산자
소비자
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
수집에 대한 데이터 거버넌스 자동화
수집 파이프라인
자동화
규정 준수
불규칙한 성능,
재사용성, 품질
사용자 및 유즈케이스 기반
CI/CD 파이프라인 자동화
다양한 데이터 소스(RDBMS, 파일, 스트림,
SaaS)
데이터는 도착한 대로 저장
일관성 없는 데이터 형식
데이터 프로파일링 활용
표준화된 데이터 품질 규칙
유입된 PII 데이터 분류 및 태그 지정
데이터 수명주기 정책 수립
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 수집 및 저장 자동화 예시
Amazon S3
Raw
AWS Glue
Data Quality
#1: 데이터 수집, 분류 및 품질 자동화
재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터
품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별
태깅규칙 설정
Amazon S3
Cleansed
Lake
Formation
PII Tags for
TBAC
AWS Data Ops
Development Kit
(AWS CDK)
보안, 저장 및
암호화
데이터 품질
데이터
프로파일링
데이터
분류
카탈로그
S3 Event Crawler with PII Tags
with Custom Classification/Data
Profiling
Amazon
AppFlow
AWS Glue
Data Catalog
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
검색성(findability)을 위한 데이터 카탈로그
Amazon S3 AWS Glue Data Catalog
and Lake Formation
#1: 데이터 수집, 분류 및 품질 자동화
재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터
품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별
태깅규칙 설정
#2 데이터 사용 가능하도록 카탈로그 구성
지속적 데이터 카탈로그 관리를 통해 데이터가 쉽게
검색, 해당 데이터에 대한 접근 요청 가능 및 결과적으로
데이터가 의사 결정을 위해 사용
#3 데이터 소비자에게 데이터 공유
데이터를 공유받은 데이터 소비자가
새로운 인사이트 구축
수집
저장
새로운 데이터 상품 게시
생산자
소비자
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
작업 간소화를 위한 데이터셋 크롤링
크롤러 – 자동으로 새 데이터 검색 및 스키마 정의 추출
스키마 변경 감지를 통한 테이블 관리, Amazon S3 상의
파티션 파악
PII와 같이 널리 사용되는 데이터 유형에 대한 기본 제공
Classifier 사용 또는 Grok 표현식을 사용한 사용자 정의
Classifier 생성
단일 카탈로그를 통한 데이터 통계 공유를 위한 데이터
프로파일링
필요 시, 증분 발생 시, 일정에 따라, 이벤트 발생 시 AWS
Glue 또는 Amazon AppFlow에서 크롤링 또는 카탈로그
작업 수행
데이터에 연결해
스키마 추정
AWS Glue Data Catalog
구성 및 관리
Crawlers data sources:
Amazon S3
Amazon DynamoDB
Delta Lake
Amazon Redshift
Amazon Aurora
MariaDB
Microsoft SQL Server
MySQL
Oracle
PostgreSQL
MongoDB
Amazon DocumentDB
Snowflake DB
Add’t Catalog w/o Crawlers
AWS CloudTrail
Kafka
And others…
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon S3
Data lake
AWS Analytics 스택을 확장하는 Amazon DataZone
Access
Control
Glue Data
Catalog
Lake
Formation
Amazon Redshift
Data warehousing
Amazon Athena
Interactive analytics
Analytics
Projects Automated
access control
Business Data
Catalog
Amazon
DataZone
Teams Amazon DataZone
portal
Data movement
전사 범위 비즈니스
데이터 카탈로그
거버넌스 및
접근제어
데이터 포탈
분석에 대한
간편화된 접근
Data Warehouse
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터를 손쉽게 공유
Amazon S3 AWS Glue Data Catalog
and Lake Formation
#1: 데이터 수집, 분류 및 품질 자동화
재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터
품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별
태깅규칙 설정
#2 데이터 사용 가능하도록 카탈로그 구성
지속적 데이터 카탈로그 관리를 통해 데이터가 쉽게
검색, 해당 데이터에 대한 접근 요청 가능 및 결과적으로
데이터가 의사 결정을 위해 사용
#3 데이터 소비자에게 데이터 공유
데이터를 공유받은 데이터 소비자가
새로운 인사이트 구축
수집
저장
생산자
소비자
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Lake Formation을 사용한 간단한 데이터 공유
Single Account
Centralized
Single Account
Simple to get started
LAKE
FORMATION
Hub and Spoke
Hub and Spoke
Multi-Account
Cross-organization
PRODUCER
LAKE
FORMATION
CONSUMER
CONSUMER
CONSUMER
Data Mesh
Data Mesh
Central Governance
Organizational autonomy
LAKE
FORMATION
LAKE
FORMATION
LAKE
FORMATION
Multi-Customer
Cross-organization
Business to Business
LAKE
FORMATION
CUSTOMER
CUSTOMER
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Lake Formation 권한 모델
• 자원에 대한 DB 스타일의 미세 수준 권한
• Lake Formation의 태그 기반 접근제어 (LF-TBAC)
를 활용한 권한관리 확장성 확보
• Amazon S3 권한 통합 관리
• 다양한 서비스 및 도구와 통합
• 권한과 접근에 대한 손쉬운 감사
Amazon S3–
Based Data Lake
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
각 LF-Tag에 대한 정책 정의
권한관리 확장성 확보를 위한 Lake Formation
TBAC 활용
LF-Tag 정의
DB: Sales
IAM user/role
AD users and groups
(SAML assertion)
LF-Tag 대상 자원에 부여
LF-Tag 및 태그값 관리 및
부여주체 결정
데이터베이스, 테이블, 컬럼에
태그 부여
LF-Tag는 계층적이며
오버라이드 가능
LF-Tag 대상 권한 적용을 통한
확장성 확보
<stage>
<stage=Test>
<stage=QA>
<stage=Prod>
DB: WebLogs
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 공유 자동화
데 이 터 공 유 를 위 한 개 방 형 접 근
Query from client services
Request Access
데이터 소비자
Business Data Catalog
Centralized Permissions
AWS Lake
Formation
Data catalog
Data attributes
Policy control
Data permissions
Data Domain
Data
Lake
Amazon
Redshift
› 페르소나가 검색, 이해, 소비 및 접근요청
가능하도록 지원
› 자동화를 통해 복잡한 부분 추상화
› LF Tags를 활용한 데이터 분류를 통해
거버넌스 강화
› 데이터 마켓플레이스 기능을 서드파티
카탈로그까지 확장
Query Engines
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon DataZone 소개
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon DataZone
신 뢰 성 있 는 자 동 화 를 통 해 모 든 사 용 자 가 모 든 데 이 터 를 사 용 해 성 과 극 대 화
20
데이터 마켓플레이스
운영 조직
데이터를 제공하고 싶은 조직 데이터를 사용하고 싶은 조직
Amazon DataZone
데이터 생산자 데이터 소비자
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 21
생산자와 소비자간에 데이터를 안전하게 공유할 수
있는 자동화된 워크플로우를 통해 올바른 사용자가
올바른 목적에 맞는 데이터만 접근하도록 허용
비즈니스 유즈케이스 기반의 데이터
프로젝트를 생성해 팀과 데이터를 하나의
그룹으로 구성하고 원하는 도구로 데이터를
작업할 수 있도록 서비스 간 원활한 전환 지원
개인화된 홈페이지를 통해 사용자가 탐색과
협업을 촉진하고 혁신을 주도할 수 있는 통합
데이터 환경 제공
Amazon DataZone 주요 기능
전사 범위 비즈니스
데이터 카탈로그
분석에 대한
간편화된 접근
거버넌스하의 데이터 공유
셀프 서비스 포탈
모든 사용자가 데이터를 더 빠르고
쉽게 찾고 이해할 수 있도록
컨텍스트와 함께 데이터 시각화
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon DataZone 구성
다양한 도구를
사용하여 접근, 협업
및 소비 간소화
데이터 포탈
비즈니스
데이터 카탈로그
거버넌스와 접근제어
다양한 소스 및
계정/리전에서
데이터 수집
데이터
프로젝트
APIs
Organizational Domains
Amazon DataZone
데이터
생산자
데이터
소비자
22
1 2
3
4
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Domain
Projects &
Profiles
Data
Assets
Data
sources
Business
Glossary
AWS Account
Associations
Metadata
forms
Corporate
Sales
Finance
Reporting
Accounting
Catalog structure
조직 구조를 반영한 도메인
관리
Data
steward
Domain
admin
Assigns
조직 구조를 반영하는 전사 범위 비즈니스 카탈로그
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
계약(Agreement)에 기반한 게시(Publish)와 구독(Subscribe)
24
생산자와 소비자간의 워크플로우는
계약(Agreement) 기반으로 시행
게시자
• 어떤 자산이 누구와 공유될지 자율적으로 결정 가능
• 데이터의 컨텍스트를 최신화하며 데이터 스튜어드와
공동으로 소유
• 수동 또는 자동화된 작업을 사용해 데이터 게시
• 게시한 데이터를 누가 사용하고 있는지 추적 가능
구독자
• 데이터 검색 및 접근 요청
• 데이터로 작업 전에 구독 승인 필요
생산자/
게시자
소비자/
구독자
계약(Agreement)에 기반한 관리
가능한 데이터 공유
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
딥링크를 사용해 데이터 조회
T A K E Y O U R P R O J E C T S ’ D A T A P E R M I S S I O N S W I T H Y O U
1
최종 사용자는 Amazon
DataZone Data Portal로
이동해 프로젝트 선택 후
데이터자산 탐색
데이터
소비자
2
사용자는 “Query in
Athena” 또는
“Query in Redshift”
선택
Amazon DataZone
Project
Amazon Athena
query editor
Amazon Redshift
query editor
사용자는 프로젝트 생성 중
생성된 Amazon Athena
워크그룹 또는 Redshift
클러스터로 페더레이션
3
Amazon DataZone
Data Portal
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 여행의 출발지
풍부한 시각적 인터페이스로
데이터 자산 검색 및 발견
데이터 포탈 딥링크를 통한
Amazon Athena 와 Amazon
Redshift를 사용한 데이터 쿼리
데이터 과학자 팀 또는 데이터
분석가 팀들과의 협업
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon DataZone 데모
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데모 흐름
DataZone Domain 생성
Producing 용도 프로젝트 생성
테이블 DataZone에 게시
1
테이블 생성
2
3
4
Consuming 용도 프로젝트 생성
Athena에서 구독한 테이블을 쿼리하고 다른
사용자들이 소비할 수 있는 신규 테이블 생성
테이블 검색 및 구독
5
6
7
DataZone Setup
Publishing Flow
Subscription Flow
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Thank you!
1 sur 29

Contenu connexe

Tendances(20)

Similaire à Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO, AWS ::: AWS Data Roadshow 2023(20)

Plus de Amazon Web Services Korea(12)

AWS Modern Infra with Storage Roadshow 2023 - Day 2AWS Modern Infra with Storage Roadshow 2023 - Day 2
AWS Modern Infra with Storage Roadshow 2023 - Day 2
Amazon Web Services Korea169 vues
AWS Modern Infra with Storage Roadshow 2023 - Day 1AWS Modern Infra with Storage Roadshow 2023 - Day 1
AWS Modern Infra with Storage Roadshow 2023 - Day 1
Amazon Web Services Korea102 vues

Enabling Agility with Data Governance - 발표자: 김성연, Analytics Specialist, WWSO, AWS ::: AWS Data Roadshow 2023

  • 1. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Sungyeon Kim Analytics Solutions Architect AWS Enabling agility with data governance on AWS
  • 2. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Agenda 데이터 기반을 위한 데이터 거버넌스 AWS Analytics 서비스 기반의 데이터 거버넌스 패턴 Amazon DataZone 소개
  • 3. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 기반에 대한 고객의 목소리 트 랜 스 포 메 이 션 은 도 전 적 이 며 , 강 력 한 비 전 과 새 로 운 문 화 , 기 술 과 테 크 놀 로 지 를 필 요 로 합 니 다 . 스폰서십과 비즈니스 케이스 확보 유즈케이스 확보 및 우선순위 결정 기술과 테크놀로지 상의 격차 ”위대함”에 대한 이해와 공감 데이터 기반 문화 조성 데이터 보안, 개인정보 보호, 규정 준수 및 거버넌스
  • 4. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 거버넌스는 데이터 기반을 위한 필수 요소 “조직은 효율적이고 효과적인 데이터 거버넌스 액티비티에 대한 지식이 부족합니다. 데이터 거버넌스에 소요되는 시간 중 30%는 낭비되는 시간입니다.” IDC 데이터 거버넌스는 더 이상 기업 조직에서 선택사항이 아닙니다. 이제 기업들은 데이터의 가치를 깨닫고 있으며 데이터가 자산가치 증대를 위하여 보호되고 관리되고 유지되어야 하는 자산임을 깨닫고 있습니다.” IDC 의 기업이 데이터 기반이 되기를 원함 85% Stat Source: Forbes Online; New Vantage Partners – Big Data Executive Survey 단 37% 만 성공
  • 5. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 정의 데이터 거버넌스는 조직이 비즈니스 가치 창출을 목적으로 데이터의 수명주기 동안 데이터의 품질 및 적절한 처리 보장을 위해 사용되는 정책, 프로세스 및 시스템의 집합
  • 6. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 수명주기 보안, 저장 및 암호화 수집 및 통합 데이터 품질 데이터 큐레이션, 통합 및 리니지 데이터 프로파일링 비즈니스 전략 데이터 분류 카탈로그 및 공유 운영 모델 사람, 프로세스, 테크놀로지 데이터 거버넌스는 비즈니스에서 시작 생산자 “데이터 공유를 원하는 팀” 소비자 “데이터 사용을 원하는 팀” 관리, 제어 및 최적화 보안, 저장 및 암호화
  • 7. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS 서비스를 어떻게 활용할 것인가?
  • 8. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 파이프라인 전체에 걸친 데이터 거버넌스 Amazon S3 AWS Glue Data Catalog and AWS Lake Formation #1: 데이터 수집, 분류 및 품질 자동화 재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터 품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별 태깅규칙 설정 #2 데이터 사용 가능하도록 카탈로그 구성 지속적 데이터 카탈로그 관리를 통해 데이터가 쉽게 검색, 해당 데이터에 대한 접근 요청 가능 및 결과적으로 데이터가 의사 결정을 위해 사용 #3 데이터 소비자에게 데이터 공유 데이터를 공유받은 데이터 소비자가 새로운 인사이트 구축 수집 저장 새로운 데이터 상품 게시 생산자 소비자
  • 9. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 수집에 대한 데이터 거버넌스 자동화 수집 파이프라인 자동화 규정 준수 불규칙한 성능, 재사용성, 품질 사용자 및 유즈케이스 기반 CI/CD 파이프라인 자동화 다양한 데이터 소스(RDBMS, 파일, 스트림, SaaS) 데이터는 도착한 대로 저장 일관성 없는 데이터 형식 데이터 프로파일링 활용 표준화된 데이터 품질 규칙 유입된 PII 데이터 분류 및 태그 지정 데이터 수명주기 정책 수립
  • 10. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 수집 및 저장 자동화 예시 Amazon S3 Raw AWS Glue Data Quality #1: 데이터 수집, 분류 및 품질 자동화 재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터 품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별 태깅규칙 설정 Amazon S3 Cleansed Lake Formation PII Tags for TBAC AWS Data Ops Development Kit (AWS CDK) 보안, 저장 및 암호화 데이터 품질 데이터 프로파일링 데이터 분류 카탈로그 S3 Event Crawler with PII Tags with Custom Classification/Data Profiling Amazon AppFlow AWS Glue Data Catalog
  • 11. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 검색성(findability)을 위한 데이터 카탈로그 Amazon S3 AWS Glue Data Catalog and Lake Formation #1: 데이터 수집, 분류 및 품질 자동화 재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터 품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별 태깅규칙 설정 #2 데이터 사용 가능하도록 카탈로그 구성 지속적 데이터 카탈로그 관리를 통해 데이터가 쉽게 검색, 해당 데이터에 대한 접근 요청 가능 및 결과적으로 데이터가 의사 결정을 위해 사용 #3 데이터 소비자에게 데이터 공유 데이터를 공유받은 데이터 소비자가 새로운 인사이트 구축 수집 저장 새로운 데이터 상품 게시 생산자 소비자
  • 12. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 작업 간소화를 위한 데이터셋 크롤링 크롤러 – 자동으로 새 데이터 검색 및 스키마 정의 추출 스키마 변경 감지를 통한 테이블 관리, Amazon S3 상의 파티션 파악 PII와 같이 널리 사용되는 데이터 유형에 대한 기본 제공 Classifier 사용 또는 Grok 표현식을 사용한 사용자 정의 Classifier 생성 단일 카탈로그를 통한 데이터 통계 공유를 위한 데이터 프로파일링 필요 시, 증분 발생 시, 일정에 따라, 이벤트 발생 시 AWS Glue 또는 Amazon AppFlow에서 크롤링 또는 카탈로그 작업 수행 데이터에 연결해 스키마 추정 AWS Glue Data Catalog 구성 및 관리 Crawlers data sources: Amazon S3 Amazon DynamoDB Delta Lake Amazon Redshift Amazon Aurora MariaDB Microsoft SQL Server MySQL Oracle PostgreSQL MongoDB Amazon DocumentDB Snowflake DB Add’t Catalog w/o Crawlers AWS CloudTrail Kafka And others…
  • 13. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon S3 Data lake AWS Analytics 스택을 확장하는 Amazon DataZone Access Control Glue Data Catalog Lake Formation Amazon Redshift Data warehousing Amazon Athena Interactive analytics Analytics Projects Automated access control Business Data Catalog Amazon DataZone Teams Amazon DataZone portal Data movement 전사 범위 비즈니스 데이터 카탈로그 거버넌스 및 접근제어 데이터 포탈 분석에 대한 간편화된 접근 Data Warehouse
  • 14. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터를 손쉽게 공유 Amazon S3 AWS Glue Data Catalog and Lake Formation #1: 데이터 수집, 분류 및 품질 자동화 재사용 가능한 기업 내 데이터 파이프라인 생성 자동화, 데이터 품질 규칙 정의 및 데이터 권한 규칙을 위한 데이터 분류 별 태깅규칙 설정 #2 데이터 사용 가능하도록 카탈로그 구성 지속적 데이터 카탈로그 관리를 통해 데이터가 쉽게 검색, 해당 데이터에 대한 접근 요청 가능 및 결과적으로 데이터가 의사 결정을 위해 사용 #3 데이터 소비자에게 데이터 공유 데이터를 공유받은 데이터 소비자가 새로운 인사이트 구축 수집 저장 생산자 소비자
  • 15. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Lake Formation을 사용한 간단한 데이터 공유 Single Account Centralized Single Account Simple to get started LAKE FORMATION Hub and Spoke Hub and Spoke Multi-Account Cross-organization PRODUCER LAKE FORMATION CONSUMER CONSUMER CONSUMER Data Mesh Data Mesh Central Governance Organizational autonomy LAKE FORMATION LAKE FORMATION LAKE FORMATION Multi-Customer Cross-organization Business to Business LAKE FORMATION CUSTOMER CUSTOMER
  • 16. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Lake Formation 권한 모델 • 자원에 대한 DB 스타일의 미세 수준 권한 • Lake Formation의 태그 기반 접근제어 (LF-TBAC) 를 활용한 권한관리 확장성 확보 • Amazon S3 권한 통합 관리 • 다양한 서비스 및 도구와 통합 • 권한과 접근에 대한 손쉬운 감사 Amazon S3– Based Data Lake
  • 17. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 각 LF-Tag에 대한 정책 정의 권한관리 확장성 확보를 위한 Lake Formation TBAC 활용 LF-Tag 정의 DB: Sales IAM user/role AD users and groups (SAML assertion) LF-Tag 대상 자원에 부여 LF-Tag 및 태그값 관리 및 부여주체 결정 데이터베이스, 테이블, 컬럼에 태그 부여 LF-Tag는 계층적이며 오버라이드 가능 LF-Tag 대상 권한 적용을 통한 확장성 확보 <stage> <stage=Test> <stage=QA> <stage=Prod> DB: WebLogs
  • 18. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 공유 자동화 데 이 터 공 유 를 위 한 개 방 형 접 근 Query from client services Request Access 데이터 소비자 Business Data Catalog Centralized Permissions AWS Lake Formation Data catalog Data attributes Policy control Data permissions Data Domain Data Lake Amazon Redshift › 페르소나가 검색, 이해, 소비 및 접근요청 가능하도록 지원 › 자동화를 통해 복잡한 부분 추상화 › LF Tags를 활용한 데이터 분류를 통해 거버넌스 강화 › 데이터 마켓플레이스 기능을 서드파티 카탈로그까지 확장 Query Engines
  • 19. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon DataZone 소개
  • 20. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon DataZone 신 뢰 성 있 는 자 동 화 를 통 해 모 든 사 용 자 가 모 든 데 이 터 를 사 용 해 성 과 극 대 화 20 데이터 마켓플레이스 운영 조직 데이터를 제공하고 싶은 조직 데이터를 사용하고 싶은 조직 Amazon DataZone 데이터 생산자 데이터 소비자
  • 21. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 21 생산자와 소비자간에 데이터를 안전하게 공유할 수 있는 자동화된 워크플로우를 통해 올바른 사용자가 올바른 목적에 맞는 데이터만 접근하도록 허용 비즈니스 유즈케이스 기반의 데이터 프로젝트를 생성해 팀과 데이터를 하나의 그룹으로 구성하고 원하는 도구로 데이터를 작업할 수 있도록 서비스 간 원활한 전환 지원 개인화된 홈페이지를 통해 사용자가 탐색과 협업을 촉진하고 혁신을 주도할 수 있는 통합 데이터 환경 제공 Amazon DataZone 주요 기능 전사 범위 비즈니스 데이터 카탈로그 분석에 대한 간편화된 접근 거버넌스하의 데이터 공유 셀프 서비스 포탈 모든 사용자가 데이터를 더 빠르고 쉽게 찾고 이해할 수 있도록 컨텍스트와 함께 데이터 시각화
  • 22. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon DataZone 구성 다양한 도구를 사용하여 접근, 협업 및 소비 간소화 데이터 포탈 비즈니스 데이터 카탈로그 거버넌스와 접근제어 다양한 소스 및 계정/리전에서 데이터 수집 데이터 프로젝트 APIs Organizational Domains Amazon DataZone 데이터 생산자 데이터 소비자 22 1 2 3 4
  • 23. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Domain Projects & Profiles Data Assets Data sources Business Glossary AWS Account Associations Metadata forms Corporate Sales Finance Reporting Accounting Catalog structure 조직 구조를 반영한 도메인 관리 Data steward Domain admin Assigns 조직 구조를 반영하는 전사 범위 비즈니스 카탈로그
  • 24. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 계약(Agreement)에 기반한 게시(Publish)와 구독(Subscribe) 24 생산자와 소비자간의 워크플로우는 계약(Agreement) 기반으로 시행 게시자 • 어떤 자산이 누구와 공유될지 자율적으로 결정 가능 • 데이터의 컨텍스트를 최신화하며 데이터 스튜어드와 공동으로 소유 • 수동 또는 자동화된 작업을 사용해 데이터 게시 • 게시한 데이터를 누가 사용하고 있는지 추적 가능 구독자 • 데이터 검색 및 접근 요청 • 데이터로 작업 전에 구독 승인 필요 생산자/ 게시자 소비자/ 구독자 계약(Agreement)에 기반한 관리 가능한 데이터 공유
  • 25. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 딥링크를 사용해 데이터 조회 T A K E Y O U R P R O J E C T S ’ D A T A P E R M I S S I O N S W I T H Y O U 1 최종 사용자는 Amazon DataZone Data Portal로 이동해 프로젝트 선택 후 데이터자산 탐색 데이터 소비자 2 사용자는 “Query in Athena” 또는 “Query in Redshift” 선택 Amazon DataZone Project Amazon Athena query editor Amazon Redshift query editor 사용자는 프로젝트 생성 중 생성된 Amazon Athena 워크그룹 또는 Redshift 클러스터로 페더레이션 3 Amazon DataZone Data Portal
  • 26. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 여행의 출발지 풍부한 시각적 인터페이스로 데이터 자산 검색 및 발견 데이터 포탈 딥링크를 통한 Amazon Athena 와 Amazon Redshift를 사용한 데이터 쿼리 데이터 과학자 팀 또는 데이터 분석가 팀들과의 협업
  • 27. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2022, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon DataZone 데모
  • 28. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데모 흐름 DataZone Domain 생성 Producing 용도 프로젝트 생성 테이블 DataZone에 게시 1 테이블 생성 2 3 4 Consuming 용도 프로젝트 생성 Athena에서 구독한 테이블을 쿼리하고 다른 사용자들이 소비할 수 있는 신규 테이블 생성 테이블 검색 및 구독 5 6 7 DataZone Setup Publishing Flow Subscription Flow
  • 29. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. © 2023, Amazon Web Services, Inc. or its affiliates. All rights reserved. Thank you!