Contenu connexe
Similaire à GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개 (20)
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: GRUTER의 빅데이터 플랫폼 및 전략 소개
- 1. © 2013 Gruter. All rights reserved.
GRUTER & BigData
2013.08.28
김형준 수석 연구원
- 2. © 2013 Gruter. All rights reserved.
오늘의 주제
• GRUTER가 바라보는 BigData 소개
• 하둡 기반 다양한 데이터 처리 플랫폼 구축 사례
• Tajo: Hadoop on SQL
• But, 어떤 업무에 적용했고 어떤 분석 기법을 사
용했는지에 대해서는 다루지 않습니다.
2
- 5. © 2013 Gruter. All rights reserved.
Data로 무엇을 할 수 있을까?
• 데이터 그 차체로 서비스
– NHN, Google 등
• 서비스의 가치, 품질 향상
– e-Commerce 추천, 게임 등
• 의사결정지원
– BI/DW
• Audit
– 보안, 침입탐지 등
• 원래 데이터가 큰 분야
– Bio Informatics
5
- 6. © 2013 Gruter. All rights reserved.
데이터만 분석하면 BigData?
• 해운대구 트위터 분석 사례
– SNS, 블로그 등 3만 8000건, 2012년 데이터
6
• 통화량 분석을 통한 서울시 심야버스 노선
– 지난 3개월, 30억건
Big/Small, 정형/비정형 어떤 용어를 사용하든
데이터를 통해 가치만 얻으면 되는 것
다만, 마케팅적으로 너무 “빅” 이라는 단어에 집중하고 있어
시장 참여자(고객, 사용자, 의사결정권자 등)의 혼란을 가져오고 있는 상황
필요도 없는 플랫폼 구축을 하고 있지 않은지?
- 7. © 2013 Gruter. All rights reserved.
어떤 데이터가 빅데이터?
• 데이터를 생성하는 소스가 수천만 이상
– 사용자, 단말, 장비 등
• 이들 소스가 발생시키거나 관계된 데이터 종류도
수십 ~ 수백만 이상
– 판매 제품, 장비 로그 등
• 이 정도가 아니어도
– Velocity, Value에 대한 꾸준한 개선은 필요
(해운대구 사례)
7
- 8. © 2013 Gruter. All rights reserved.
빅데이터 고민
• 빅데이터 도입 시 어려움은
– 다루어야 할 데이터 종류도 많고 크기도 크다.
– 데이터는 지속적으로 변화되고 새로운 종류의 데이터가
계속 발생한다.
– 처리 결과가 가치가 있는지를 미리 알기 어렵다.
– 기술력도 부족하다.
• 프로젝트 추진 시 가장 고민은?
– 어떤 데이터로?
– 무엇을 분석하지?
– BI/DW와 뭐가 다르지?
– 그냥 벤더 제품 도입하면 안되나?
• 벤더가 무엇을 가지고 들어 오는가?
• DW 솔루션? Hadoop?
8
- 9. © 2013 Gruter. All rights reserved.
빅데이터 프로세스
9
시스템 기획
(분석 대상, 데이터, 알고리즘)
시스템 비용 및 ROI 산정
업체 선정
개발
운영
시스템 기획
(분석 도메인만 결정,
마케팅, 생산성 향상, ... )
관련 데이터 수집
(기업 내부, 외부)
3 ~ 6개월 이상 소요
데이터 가지고 놀기
가치 발굴
시스템에 반영
지속적인 활동
- 10. © 2013 Gruter. All rights reserved.
빅데이터 기술
10
Google File System
Google MapReduce
BigTable
Chubby
Swazall
Tenzing
Pregel
Dremel
Hadoop File System
Hadopo MapReduce
HBase
ZooKeeper
Pig
Hive
Giraph
Tajo
- 11. © 2013 Gruter. All rights reserved.
GRUTER BigData 전략
• ROI
• 플랫폼
• 내재화
11
그렇다면 분석은...
- 12. © 2013 Gruter. All rights reserved.
BigData = ROI의 문제
12
ERP
SCM
Billing
Web
Log
게시판
글
SNS
?
- 13. © 2013 Gruter. All rights reserved.
오픈 소스 중심
13
Data Store
File System
(HadoopFS)
NoSQL
(Cloudata, HBase, Cassandra)
Batch Analysis
Data Analysis Platform(Hadoop, Giraph)
Management
Cluster
Management
(ZooKeeper)
Real-time Analysis
Aggregator
Job Workflow Engine(oozie, cascade)
Collector
(flume, scribe)
Script Language(Hive, Pig)
CEP Engine
(Esper)
Real-time Analysis
Platform(Storm)
Analysis Job
Search
(ElasticSearch)
Interative Analysis(Tajo,
Imapa)
Analysis Job
Mining Lib
(Mahout)
Monitoring
(cloumon)
Statistics Lib
(R)
- 14. © 2013 Gruter. All rights reserved.
데이터 플랫폼
• 데이터가 다양하고 계속 변화
– 서비스 종류도 많고, 서비스의 데이터/API도 계속 변
화
• 무엇을 분석해야 할 지 모르는 경우가 많다.
– 데이터를 자주 만져 봐야 알 수 있다.
• 시스템, 데이터 모두 알아야 한다.
– 이런 전문가는 많지 않고 비싸다.
• 비용 대비 성능
– 엔터프라이즈급 솔루션 도입?
14
- 15. © 2013 Gruter. All rights reserved.
(Big)Data플랫폼이란?
• 데이터의 전체 라이프 사이클을 관리하는 시스템
– 수집, 저장, 분석, 폐기
• 데이터 유형 변화에도 시스템의 변경 없이 적용, 운영 가
능
• 다양한 분석 알고리즘 또는 분석 플랫폼이 적용 가능
– Map/Reduce, MPI, Graph 등
• 비즈니스 요구사항에 부합되는 적절한 분석 Latency 지
원
– 실시간, 준-실시간, 배치
• 데이터의 용량 증가에도 즉시 대응 가능
• 데이터 Needs 가 있는 사용자가 쉽게 사용
– 데이터의 접근성, 프로그램 모델, SQL 지원 등
15
- 16. © 2013 Gruter. All rights reserved.
Qoobah: Gruter’s Bigdata Platform
16
* 아키텍처는 고객의 세부요구사항에 따라 변경될 수 있음
데이터 소스/수집기
(각종 로그 데이터)
Data Source
(Web Server)
Flume
Agent
Thrift
Source
Thrift
Sink
Temporary
데이터 수집기/실시간 분석
Thrift
Source
Sink
(Hadoop,
Hive 등)
Real-time
Analysis
(질의 기반)
원본 저장소
Hadoop
File System
Cluster
coordinator
검색엔진 (Search)
ElasticSearch
Origin File
Index
분석 결과 저장소
NoSQL Semi-
Structured Cluster
Management
데이터 소스
(Agent 미 설치 장비)
Data Source
(IDS, IPS, Firewall등)
Oracle/MySQL RDB
Cloumon
Data Management
Data Type Management
Zookeeper
ElasticSearch
Hadoop plugin
그루터 솔루션오픈 소스
Analysis Management
프로젝트 개발
메타정보
(RDB)
데이터 제공
분석 결과
API 서비스
실시간 분석 플랫폼
(프로그램 기반)
R-Bamboo분석 모듈
데이터 소스
(DB/Storage 데이터)
프로젝트
개발
Sqoop
기본
플랫폼
배치분석
Hadoop
Mapeduce
Hive
분석
모듈
R
- 18. © 2013 Gruter. All rights reserved.
Delivery
• 오픈 소스 + 그루터 솔루션 공급 + 아키텍처 컨설팅 + 구축
• 주요 Delivery 내용
– 고객의 요구사항에 적합한 시스템 아키텍처 수립
• 사용자 요구사항에 부합되는 아키텍처 및 솔루션 선정
• 하드웨어 스펙 및 필요 대수 산정
• 솔루션은 대부분 오픈 소스 중심으로 구성
– 플랫폼 구축
• 선정된 솔루션 설치 및 실행 환경 구성
• 커스터마이징
• 일부 컴포넌트 개발
– 분석 모듈 개발
• 고객과 협의된 업무 및 데이터를 설치된 플랫폼에 적용
• 분석 프로그램 개발
– 주요 산출물
• 요구사항 정의서, 아키텍처 정의서, 오픈 소스 솔루션 선정 사유
• 플랫폼 설치 내역 상세, 설치 솔루션 별 운영 매뉴얼
• 추가 개발된 모듈 설계서, 분석 프로그램 설계서
18
- 19. © 2013 Gruter. All rights reserved.
Delivery Process
19
프로젝트
팀구성
(고객 + 그루터)
1차 교육
(이론 및 테스트
환경 내 실습)
장비 발주
요구 사항 정의 아키텍처 정의
아키텍처 구성
솔루션 검증
장비 입고
플랫폼 설치
및 구성
분석 대상
데이터 정의
(수집 대상 등)
데이터 적재
2차 교육
(실제 환경)
분석 모듈
설계/개발
분석 모듈
튜닝
운영 교육
플랫폼 구성
모듈 개발
운영
시스템 통합
계약 전
요구사항 파악
기존 분석
솔루션 사용
가이드
- 20. © 2013 Gruter. All rights reserved.
기술 내재화 및 유지보수 지원
• 현장 적용 가능한 수준의 교육
– 참여 개발자의 수준에 맞는 교육 진행
– 단계별 교육 진행
• 1차 교육: 프로젝트 초기, 기본 개념 및 이론 중심 교육
• 2차 교육: 프로젝트 중반, 실습 중심 교육
– Pair 프로그램을 통한 프로그래밍 기술 지원
• 개발 대상 프로그램 중 일부를 고객 개발자와 그루터 개발자가 페어 프로그램으로 개발
• 고객 개발자 개인 개발 장비에 각종 오픈 소스 설치 및 디버깅 환경 구축 지원
– 프로젝트 기간 내 기술 지원 채널 제공
• 개발자, 운영자 상시 기술 지원
• 운영 가능한 수준의 기술 내재화 지원
– 플랫폼 설치 지원
• 실제 운영할 서버를 이용하여 수행
• 단계별 실습
1단계: 그루터가 모든 플랫폼 설치, 개발/테스트에 활용
2단계: 플랫폼 활용 및 개념 숙지 후 실제 운영자가 직접 설치
– 운영 지원
• 상황 별 운영 방안 제시
솔루션 별 서버 추가 및 제거
솔루션 별 업그레이드
솔루션 별 장애 대응: HA 구성 및 HA 적용 테스트
• 프로젝트 일정 내 시범 서비스 운영
시범 서비스 동안 발생한 다양한 문제를 운영자와 공동 해결
• 유지 보수 방안
– 그루터 제공 솔루션 및 프로젝트 내 개발된 모듈에 대해서는 유지보수 계약으로 지원
– 오픈 소스 코어에 대한 지원은 각 솔루션의 오픈 소스 커뮤니티 배포판 또는 패치를 이용한 지원
• 오픈 소스 코어에 대한 솔루션 품질에 대한 책임은 없음
• 고객 요청 시 별도 계약으로 지원 가능
20
- 21. © 2013 Gruter. All rights reserved.
GRUTER는 어떤 회사?
• 오픈 소스 기반 빅데이터 플랫폼 전문 기업
• 2006년 ~
• 14명 + OO명
• 국내 최초(?) 상용 Hadoop 클러스터 운영
– 2007.04 ~, 블로그 데이터 수집 및 분석
Yahoo Korea에 제공
• 자체 서비스
– www.seenal.com (SNS 데이터 분석 서비스)
• 오픈 소스
– TAJO: Apache Incubation
– Cloudata, Cloumon-oozie, Drone
• http://github.com/gruter
21
- 22. GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839