6. ETL Tool
(SSIS, etc)
EDW
(SQL Svr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Data Marts
Data Lake(s)
Dashboards
Apps
진화하는 분석 방식
7. ETL Tool
(SSIS, etc)
EDW
(SQL Svr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Data Marts
Data Lake(s)
Dashboards
Apps
진화하는 분석 방식
8. ETL Tool
(SSIS, etc)
EDW
(SQL Svr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Scale-out S
torage & C
ompute
(HDFS, Blob Storage,
etc)
Transform & Load
Data Marts
Data Lake(s)
Dashboards
Apps
Streaming data
진화하는 분석 방식
9. 데이터 허브
(Storage & Compute)
데이터 소스
(Import From)
Move data
among Hubs
데이터 허브
(Storage & Compute)
데이터 소스
(Import From)
Ingest
진화하는 분석 방식
연결&수집 변형&보강 배포
정보 생산:
Ingest
이동
BI Tools
Data Marts
Data Lake(s)
Dashboards
Apps
11. ADF의 데이터 처리 과정
INGEST 준비 변형&분석 배포
데이터 소스 데이터 소비
12. ADF의 주요 개념
Activity에 의해
소비
Dataset
생산
수행(on)
Activity
논리 그룹
Linked Service
에 저장된 데이
터 아이템 표현
Data Factory
개발자/IT Pro를 위한 플랫폼으로
데이터 처리, 저장소 그리고 이동 서비스를 작성하고
분석 파이프라인을 생성 및 조작할 수 있다.
13. 데이터 소스
BI에서 소비
앱에 통합
Azure Data Factory
조정과 관리
• 파이프라인에서 데이터 변형 네트워크를 작
성/관리
• 단일 시각에서:
• 전체 데이터와 조작 계보(operational lineage )
• 파이프라인과 데이터집합 상태 모니터
• 데이터 생성 정책 제어
데이터 저장과 처리 환경
• 소유하고 있는 데이터로 작업
• 온프렘 SQL Server
• Azure DB, Azure Blobs, Azure table
• 데이터 처리의 작성 및 연계(orchestrate)
• HDInsight, Custom Code, etc.
관계형 & 비관계형
온프렘 / 클라우드
배치 / 스트림
Hadoop
(Hive, Pig, etc.)
Custom code
데이터 이동
정보 자산원시 데이터 연계,
모니터
14. ADF로 운영에 필요한 정보 생산
• 조정과 일정관리
• 모니터링과 관리
• 데이터 계보
17. Azure Data Factory Top 사용 사례
18
사용 사례 산업 분야
사용자와 제품 프로파일링 상호 동작하는 엔터테인먼트 / 소매
마케팅 캠페인 분석 상호 동작하는 엔터테인먼트
고객 감성 분석 상호 동작하는 엔터테인먼트 / 소매
정정 및 예방 정비와 보수 작업 제조 (IoT)
개인화된 제품 추천 소매
보함 계리 모델링과 보고서 자동화 금융 서비스
재무 위험 모델링과 분석 금융 서비스
운영 원격측정과 상태 보고 온라인 서비스
고객 구매 활동 분석 소매
가격 최적화 소매
19. 시나리오 분석 :
고객 프로파일링 (게임 로그 분석)
Samples on GitHub
https://azure.microsoft.com/en-us/documentation/articles/data-factory-samples/
20. 게임 콘솔
핸드헬드 장치
PC
User
시나리오 : 게임 고객 프로파일링
Game logs
신규 사용
자 패턴
사용량/지역
활용 방안 : 비즈니스 개선 및 고객에게 더 나은 환경 제공
• 탁월한 새 기능 개발
• 교차 판매 기회 포착
마케팅 캠페인 효과 분석
사용자 가입
마케팅 활동
Storage
21. 고객 프로파일링 – 게임 사용 분석
2277,2013-06-01 02:26:54.3943450,111,164.234.187.32,24.84.225.233,true,8,1,2058
2277,2013-06-01 03:26:23.2240000,111,164.234.187.32,24.84.225.233,true,8,1,2058-2123-2009-2068-2166
2277,2013-06-01 04:22:39.4940000,111,164.234.187.32,24.84.225.233,true,8,1,
2277,2013-06-01 05:43:54.1240000,111,164.234.187.32,24.84.225.233,true,8,1,2058-225545-2309-2068-2166
2277,2013-06-01 06:11:23.9274300,111,164.234.187.32,24.84.225.233,true,8,1,223-2123-2009-4229-9936623
2277,2013-06-01 07:37:01.3962500,111,164.234.187.32,24.84.225.233,true,8,1,
2277,2013-06-01 08:12:03.1109790,111,164.234.187.32,24.84.225.233,true,8,1,234322-2123-2234234-12432-34432
3
…
로그 파일 일부 (수십 TB/day)
사용자 테이블
UserID FirstName LastName Country …
2277 Pratik Patel USA
664432 Dave Nettleton USA
8853 Mike Flasko Canada
지역별 신규 사용자 활동/Week
profileid day state duration rank weaponsused interactedwith
1148 6/2/2013Oregon 216 33 1 5
1004 6/2/2013Missouri 22 40 6 2
292 6/1/2013Georgia 201 137 1 5
1059 6/2/2013Oregon 27 104 5 2
675 6/2/2013California 65 164 3 2
1348 6/3/2013Nebraska 21 95 5 2
40. • Slice :
• 하나의 논리적 시간. 하나 이상의 activity가 수행되면서 생성되는 데이터 파티셔닝 기반.
• 데이터집합 정의에서 availability 속성으로 정의됨
• Activity가 수행되면 가장 작은 단위는 Slice 데이터를 생산 및 변경함.
Dataset Slice
"availability": { "frequency": "Day", interval": 1 }
Hourly
12-1
1-2
2-3
GameUsageActivity: (예: Hive)
42. • Is my data successfully getting produced?
• Is it produced on time?
• Am I alerted quickly of failures?
• What about troubleshooting information?
• Are there any policy warnings or errors?
Step 5: 모니터와 관리
47. • ADF activity내에 포장된 어떤 .NET code도 수행 가능
• 신규 소스/대상 연결에 사용될 수 있음
• 사용자 정의 변형 activity 생성에 사용될 수 있음
• 예) twitter에서 데이터를 가져오고, Azure ML 모델을 호출하는 사용자 정의
Activity 사용하기
• 사용자 정의 activity 생성용 SDK :
사용자 정의 Activity