4. 자주 이야기되는 주제들 – 비즈니스와 IT
우리가 빅 데이터
로 해결해야 할 문
제를 가지고 있습
니까?
어떻게 AWS로 데
이터는 옮기고 저
장할 수 있나요?
AWS에서 어떠한
서비스들을 사용
해야 합니까?
원하는 결과를 얻
기 위해서 어떠한
데이터를 수집하
여야 합니까?
알려진 툴을 쓸 수
있나요? 어떤 기
술이 더 필요합니
까?
3rd party 빅 데이
터 솔루션을 AWS
에서 사용할 수 있
습니까?
Performance and Reliability
Business vs. IT
7. 빅 데이터 플랫폼 준비 – 달성하고자 하는 목표로부터
백화점 (온라인/오프라인)
매출 증대
시장 점유율 증대
고객 행복
브랜드 가치
재고 최적화
공급망 효율화
목표
8. 빅 데이터 플랫폼 준비 – 데이터 포인트 (메트릭)
PURCHASE MOVEMENT INFLUENCE
9. 데이터로부터 비즈니스 결과를 얻어낼 수 있는 플랫폼
PURCHASE
MOVEMENT
INFLUENCE
데이터 유입 /
수집
데이터 소비 /
시각화
저장
처리 /
분석
1 4
0 9
5
매출 증대
시장 점유율 증대
고객 행복
브랜드 가치
재고 최적화
공급망 효율화
START HERE
비즈니스로부터
10. 빅 데이터와 클라우드 컴퓨팅
• 매우 자주 엄청난 양의 데이터
• 대량의, 다양하고 빠르게 유입되는 데이터
• 반복적이고 실험적인 데이터 처리 및 분석
• 급격한 사용량 변화
• 절대적인 성능보다는 처리 시간이 중요
• 엄청난, 일반적으로 무제한의 스토리지
• 다양한 컴퓨트, 스토리지, 네트워크 서비스
• 반복적이고 실험적인 인프라의 배포 및 사용
• 급격한 사용량 변화에 최적화된 자원 사용 및 비용 구조
• 병렬 처리를 통한 처리 시간 단축
빅데이터 클라우드 컴퓨팅
11. 빅 데이터 플랫폼을 위한 AWS 서비스 구성 요소
Amazon
S3
• 오브젝트 스토리지
• 무제한 저장 가능
• 99.999999999% 내구성
• 자동화된 라이프사이클
• 이벤트 기반 프로세싱
Amazon
Kinesis
• 실시간 데이터 분석
• 높은 처리량
• 탄력성
• 쉬운 사용
• AWS 서비스와 통합 용이
(S3, Redshift, DynamoDB)
Amazon
DynamoDB
• NoSQL DB
• 완전 관리형 서비스
• 데이터베이스 크기와
상관없이 10ms 미만의
응답시간
Amazon
Redshift
• 관계형 DW 서비스
• MPP (병렬 처리)
• 페타바이트 스케일
• 완전 관리형 서비스
Amazon
Elastic MapReduce
• 하둡 클러스터
• Hive, Pig, Impala, Hbase
• 완전 관리형 서비스
• AWS 서비스들과 통합 용이
(S3, Redshift, DynamoDB)
12. Amazon Redshift Amazon Elastic
MapReduce
데이터웨어
하우스
반정형
데이터
Amazon Glacier
여러 서비스들의 조합을 통하여 최적의 아키텍처를 설계
Amazon
Simple Storage Service
데이터 저장소 백업/아키이빙
Amazon
DynamoDB
Amazon
Machine Learning
Amazon
Kinesis
NoSQL
예측
모델
기타
어플리케이션
실시간
데이터
Amazon
EC2
13. Analytics on 450k subscribers
using Amazon Redshift
Ad campaign effectiveness
analysis platform
Financial Simulations Platform
Large scale clinical
data analytic platformTrading history analyticsAnalytics on 4 PB
data warehouse
Gaming Analytics for
over 15 million users
Mobile Analytics for over
200M devices
Real-time Commerce
Recommendation
AWS 기반 주요 빅데이터 사례
Media streaming
Securities Trading
Data Archiving
Financial markets
analytics
14. 디지털 모바일 데이터 플랫폼 자동화 고객 소통 IOT
데이터에 대한 탁월성 분석에 대한 탁월성
빅 데이터의 여섯 가지 일반적인 분야
15. A full-service residential real estate brokerage
Redfin 은 수억 건의
부동산 정보와
수백만의 고객 정보를
관리
”Hot Homes” 알고리즘
사용. 500여 종류의
특성들을 분석하여
자동으로 매매 가능성을
계산
“Day One” 부터 AWS
클라우드를 모든 부분에
사용
https://aws.amazon.com/solutions/case-studies/redfin/
빅 데이터 플랫폼 구축 - 비즈니스 기회 포착
16. Hot Homes
Modernization Go mobile Data platform Automation Engagement IOT
There's an 80% chance this home will sell in the next 11 days – go tour it soon
.
빅 데이터 플랫폼 구축 - 비즈니스 기회 포착
17. Ingest/
Collect
Consume/
visualize
Store
Process/
analyze
Data
1 4
0 9
5
Amazon S3
Data lake
Amazon EMR
Amazon
Kinesis
Amazon RedShift
Answers & Insights
Hot HomesUsers
Properties
Agents
유저 프로파일에 의한 추천
Hot Homes
Similar Homes
Agent Follow-up
Agent Scorecard
Marketing
A/B Testing
Real Time Data
…
Amazon
DynamoDB
BI / Reporting
빅 데이터 플랫폼 구축 - 비즈니스 기회 포착
18. American upscale fashion retailer
노드스트롬은 미국과 캐
나다에 총 323개의 스토
어를 운영하고 있습니다.
다른 모든 경쟁자들보다
많은 지역에 많은 수의 상
점을 운영하고 있습니다.
옷, 신발, 화장품 및 악세
사리를 판매하는
패션 리테일러
노드스트롬은 AWS에
All-in 하고 있습니다.
https://aws.amazon.com/solutions/case-studies/nordstrom/
빅 데이터 플랫폼 구축 - 개인화
21. Operates financial exchanges around the world
선도적인 주가지수 제공
41,000+ INDEXES
다양한 지역, 종류
Provides technology,
trading, intelligence,
surveillance (감독), and
listing services
100여개의 데이터
제품들을 250만명 이상의
투자 전문가들이 98개국
이상의 고객들에게 제공
빅 데이터 플랫폼 구축 - Hybrid
22. 나스닥은 혁신을 가속화하고 시장으로의 접근 속도를 높임과 동시에 분석 툴 및
서비스를 최적의 성능으로 유지하면서 데이터 웨어하우스의 비용을 낮추고,
수집되는 민감정보 데이터의 보안을 유지하기를 원했습니다.
• 고비용 레거시 DW 시스템 ($1.16M /yr)
• 제한된 용량 (1 year of data)
• 많은 양의 데이터 (4-8B rows daily)
• 다양한 데이터 소스
OUR GLOBAL PLATFORM
CAN HANDLE MORE THAN
1 MILLION
MESSAGES/SECOND
AT SUB-40 MICROSECONDS
AVERAGE SPEEDS
빅 데이터 플랫폼 구축 - Hybrid
24. 빅 데이터 플랫폼 구축 – 하이브리드 구성 (NasDaQ OMX FinQloud)
FinQloud Regulatory Records Retention (R3)
https://aws.amazon.com/solutions/case-studies/nasdaq-finqloud/
25. Event Sourcing
IoT Rules
Control Plane
IoT Shadow
Big Data Service
Event Processing
Service
CQRS
Polyglot Users
Operations
Consumers
Consumers
사물인터넷(IoT)과 Big Data
26. DEVICE SDK
연결, 인증 및 메세지 교환을
위한 클라이언트 라이브러리
DEVICE GATEWAY
MQTT와 HTTP를 통한
디바이스 통신
AUTHENTICATION
상호인증 및 암호화를
통한 보안
RULES ENGINE
규칙 기반의 메세지
변환 및 AWS 서비스와의
연동
AWS Services
- - - - -
3P Services
SHADOW
연결 유/무에 상관없이
사물의 상태를 저장
APPLICATIONS
AWS IoT API
REGISTRY
사물에 대한 정보 및 관리
AWS IOT 서비스 개요
28. 생성
수집 및 저장
분석 및 컴퓨팅
협업 및 공유
a
Amazon
DynamoDB
Amazon
RDS
Amazon
Redshift
AWS
Direct Connect
AWS
Storage Gateway
AWS
Import/ Export
Amazon
Glacier
Amazon S3
Amazon
Kinesis Amazon EMR
단계별 AWS 서비스 – 수집 및 저장
29. 생성
수집 및 저장
분석 및 컴퓨팅
협업 및 공유
a
Amazon EC2 Amazon EMR
Amazon
Kinesis
단계별 AWS 서비스 – 분석 및 컴퓨팅
30. 생성
수집 및 저장
분석 및 컴퓨팅
협업 및 공유
aAmazon
Redshift
Amazon
DynamoDB
Amazon
RDS
S3 Amazon EC2 Amazon EMR
Amazon
CloudFront
AWS
CloudFormation
AWS
Data Pipeline
단계별 AWS 서비스 – 협업 및 공유
31. Cache
SQL
Request Rate
High Low
Cost/GB
High Low
Latency
Low High
Data Volume
Low High
Glacier
Structure
NoSQL
Hot Data Warm Data Cold Data
Low
High
Search
데이터 온도에 따른 올바른 데이터 저장소 선택
32. 수집 저장 분석 활용
A
iOS Android
Web Apps
Logstash
Amazon
RDS
Amazon
DynamoDB
Amazon
ES
Amazon
S3
Apache
Kafka
Amazon
Glacier
Amazon
Kinesis
Amazon
DynamoDB
Amazon
Redshift
Impala
Pig
Amazon ML
Streaming
Amazon
Kinesis
AWS
Lambda
AmazonElasticMapReduce
Amazon
ElastiCache
SearchSQLNoSQLCach
e
StreamProcessingBatchInteractive
Logging
StreamStorage
IoTApplications
FileStorage
Analysis&Visualization
Hot
Cold
Warm
Hot
Slow
Hot
ML
Fast
Fast
Amazon
QuickSight
Transactional Data
File Data
Stream Data
Notebooks
데이터 예측
Apps & APIs
Mobile
Apps
IDE
Search Data
ETL
다양한 오픈 소스 및 서드 파티 도구 연계
33. 빅 데이터 플랫폼 구축 - 데이터 중심의 비즈니스
• Business Outcome – 빅 데이터 분석을 통해 얻고자 하는 비즈니스 효과 및 과제로부터 시작하여
전체 디자인을 설계
• Experiment – 작게 시작하며, 최대한 많은 아이디어를 구체화하여 검증하고, 성공한 모델을 크게 확장
• Agile & Timely – 빅 데이터 처리 플랫폼을 수 분만에 빠르게 생성하고 변하는 비즈니스 요건에 맞춰
빠르게 사용할 수 있는 풍부한 플랫폼 서비스의 활용
35. 세 가지 종류의 데이터 분석
Retrospective
분석 & 리포트
Here-and-now
리얼 타임 처리 및
대쉬보드
Predictions
스마트
어플리케이션
Amazon Kinesis
Amazon EC2
AWS Lambda
Amazon Redshift,
Amazon RDS
Amazon S3
Amazon EMR
기계 학습
딥러닝
36. Amazon Machine Learning 서비스 소개
• 개발자들을 위한 사용하기 쉬운 완전 관리형 서비스
• 아마존의 서비스들을 활용한 안정적이고 강력한 서비스
• AWS에 이미 저장되어 있는 데이터들을 활용한 서비스
• 수 초 안에 머신 러닝 모델을 운영 환경에 적용
37. Amazon Machine Learning - 개발자 친화성 및 간편한 예측 분석
• 직관적이고 빠르게 자동 모델 생성
– 데이터 추출
– 모델 트레이닝, 품질 검사, 튜닝
– 배포 및 관리
• 모델 라이프사이클을 API 및 SDK를 통해 자동화
– Java, Python, .NET, JavaScript, Ruby, PHP 언어 지원
– AWS Mobile SDK을 통한 손쉬운 앱 개발
• 꼭 필요한 예측 모델 제공
– Binary classification : Yes / No 분류
– Multiclass classification : 카테고리 분류
– Regression : 숫자의 값 예측
38. 인공 지능서비스를 위한 AWS 서비스
p2.16xlarge
- vCPU 64/ 16 GPU
- 메모리: 732GiB
- 병렬 코어 39,636
- GPU 메모리: 192GB
- 대역폭: 20GB
Amazon EC2 Instance
for Deep Learning
Amazon Deep Scalable
Sparse Tensor Network
Engine (DSSTNE)
Amazon Alexa
AWS Lambda와 연계하는
인공 지능 음성 인식 서비스
• 아마존 주문 전/후 예측 시스템 활용
• 머신 러닝 기법을 통한 '고객이 주문
전에 배송 계획 예측’
• 사내 총 주간 추천 예측 500억회
39. 빅 데이터 플랫폼 구축 - 데이터 중심의 비즈니스
• 데이터 버스 구성 – 데이터의 수집, 저장, 분석, 시각화, 예측 등 각 단계에서 데이터가 효율적으로
사용될 수 있도록 데이터 버스를 효과적으로 구성
• 적합한 도구 사용 – 데이터의 엑세스 패턴, 온도, 작업 형태에 따라 올바른 저장소 및 도구를 사용
• 관리형 서비스 – 데이터 및 비즈니스 요건의 변화에 대한 빠른 대응 및 비용 효율적인 빅 데이터 환
경 관리를 위하여 관리형 서비스 사용
• 다양한 실험 – 적은 비용으로 많은 실험을 수행함으로써 새로운 비즈니스 요구에 빠르게 대응
40. How would you like to take your business forward today?
AWS will help you!
New market
demands
INNOVATION
Speed to deliver
AGILITY
Reprioritization
of spend
OPTIMIZATION
다시 처음으로부터