Contenu connexe
Similaire à GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례 (20)
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: 온라인 컨텐츠 서비스를 위한 빅데이터 구축 사례
- 1. © 2013 Gruter. All rights reserved.
온라인 컨텐츠 서비스를
위한 빅데이터 구축 사례
2013.08.29
정재화 책임 연구원
- 2. © 2013 Gruter. All rights reserved.
목차
• 추진 동기
• 전체 시스템 아키텍처
• Hive
• 분석 룰 관리 시스템
• 추진 과정
• 도입 효과
• 향후 계획
- 3. © 2013 Gruter. All rights reserved.
추진 동기
• 장시간 소요되는 분석 및 배치 프로세스
• 일정 규모 이상의 데이터는 적재 불가
• 버려지는 데이터의 증가
더 많은 데이터를 분석할 수 있는 방법은?
- 4. © 2013 Gruter. All rights reserved.
전체 시스템 구성
Active Cluster
HBase
Table Table Table
StandBy Cluster
HBase
Table Table Table
배치분석
MRv1
Map
Reduce
Hive
HDFS
JournalNode
Active
NameNode
DataNode
StandBy
NameNode
DataNode DataNode
DBMS sqoop
DW sqoop
WAS Flume
분석 룰 관리 시스템
API 서버
데이터 관리자
엔드 유저
RealTime
Batch Processing
분석 결과 저장소
• HDFS: hadoop-2.0.0-cdh4.3.0
• MRv1: hadoop-2.0.0-mr1-cdh.4.2.0
• HBase: hbase-0.94.6-cdh4.3.0
• Hive: hive-0.10.0-cdh4.3.0
- 5. © 2013 Gruter. All rights reserved.
Hive
• MR에 익숙치 않은 개발자 접근 용이
• Sqoop으로 이관된 데이터 가공 적합
• 분석 기간 단축
- 6. © 2013 Gruter. All rights reserved.
분석 룰 관리 시스템
• 너무 많은 구현 대상 Hive 질의
그 많은 질의를 다 만들 것인가?
• 질의 내 반복되는 패턴 분석
– 상속 관계가 형성되는 질의
– 파라미터만 변경되는 질의
질의를 쉽게 만들고, 재사용할 수 있는 방법은?
- 7. © 2013 Gruter. All rights reserved.
분석 룰 관리 시스템
분석 대상
오브젝트 등록
Hive 테이블
메타 정보
오브젝트
메타 정보
시스템 담당자
분석 룰 디자인
시스템 담당자 기획자
오브젝트
메타 정보
분석 룰 관리
/실행
자동/배치
시스템 담당자
Ad-hoc
질의 실행
실행 결과
결과 제공
API
기획자
룰 생성
결과 조회
파라미터 튜닝
새로운 분석 대상
데이터 추가
파라미터 튜닝
- 8. © 2013 Gruter. All rights reserved.
추진 과정
• Stage1
– DW 학습에 의한 기대 심리
– 빅데이터 특성을 고려하지 않은 요구사항
– Agile 방식으로 분석 수행
– 개발팀/운영팀 교육 및 실습
• Stage2
– 빅데이터 특성을 고려한 요구사항
– 데이터 분석 기간에 대한 현업의 이해
– Stage1 결과 공유에 따른 현업 관심 증가
– 개발팀 + 그루터 분석 수행
– Cloumon 적용
- 9. © 2013 Gruter. All rights reserved.
추진 과정
• Stage3
– 엔드유저용 라이브 서비스 오픈
– 빅데이터를 이용한 서비스 기획 요건 급증
– 개발팀/운영팀 기술 성숙도 증가
- 10. © 2013 Gruter. All rights reserved.
추진 과정
http://si.wsj.net/public/resources/images/OB-UA904_0805bo_G_20120805170407.jpg
http://runtokorea.com/wp-content/uploads/2013/02/1218_boston-marathon-2.jpg
- 11. © 2013 Gruter. All rights reserved.
도입 효과
• 기획의 패러다임 변화
• 프로세스 변화
– 기획자와 개발자 모두가 서비스 발굴
– 데이터를 가지고 놀 수 있는 체계 마련
• 수집 데이터 소스 확대
• 오픈 소스 기술 내재화
- 12. © 2013 Gruter. All rights reserved.
향후 계획
• MR 기반의 Hive 구조
– 쿼리 및 파라미터 튜닝의 한계
– 지속적인 서버 추가의 어려움
SQL-On Hadoop
- 13. © 2013 Gruter. All rights reserved.
결론
• 기획자의 지속적인 참여만이 성공 보장
– 기획이 결여된 결과물은 참고용 자료로 전락
– 기획자가 볼 수 없었던 데이터 제공
– 라이브 서비스용 분석 모델 발굴
– Collaboration: 기획자 + 개발자 + 그루터
- 14. GRUTER: YOUR PARTNER
IN THE BIG DATA REVOLUTION
Phone +82-70-8129-2950
Fax +82-70-8129-2952
E-mail contact@gruter.com
Web www.gruter.com
© 2013 Gruter. All rights reserved.
Gruter, Inc.
5F Sehwa Office Building 889-70 Daechi-dong, Gangnam-gu, Seoul, South Korea 135-839