SlideShare une entreprise Scribd logo
1  sur  23
An Introduction to
Hadoop
기술2팀 강 민 재
2014. 03. 07
빅데이터 소개
- 빅데이터 시대
- 빅데이터란?
- 빅데이터 성격
하둡 소개
- 하둡이란?
- 하둡의 등장배경
하둡 & 하둡 보조기술
- 하둡 구성기술(HDFS & MapReduce)
- 하둡을 위한 보조기술
- 데이터 처리 과정
목 차
활용사례
- 하둡에코시스템 활용 사례
- 빅데이터 활용 사례
빅데이터(BigData)의 정의
 사전적 의미
기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는
비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술
 또다른 의미
정해진 혹은 정해지지 않은 아주 많은(Big) 정보들(Data)을 수집, 저장, 관리, 분석하여 활용하는 기술.
구 분 기존 Data
데이터 양 • 테라바이트 수준
데이터 유형 • 정형데이터 중심
프로세스
및 기술
• 프로세스 및 기술이 상대적으로
단순
• 원인-결과 규명 중심
• 처리/분석 과정이 정형화.
빅데이터(BigData)
• 페타바이트 수준(최소 100 테라바이트 이상)
• 소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그,
통신 CDR 로그 등 비정형 데이터의 비중이 높음
• 처리의 복잡성을 증대시키는 요인.
• 다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로
인해 처리 복잡도가 매우 높아, 분산 처리 기술이 필요
• 상관관계 규명 중심
• Hadoop, R, NoSQL 등 개방형 소프트웨어
V3 또는 V4라 표현되는 빅데이터(BigData) 성격
 가트너 그룹 : Volume(데이터 규모), Variety(데이터 다양성), Velocity(데이터 변화속도)
 IBM : +Veracity(진실성)
 브라이언 홉킨스 : +Variablility(가변성)
Volume (데이터 규모)
MB, GB
단위 규모 TB, PB, EB
단위
• 데이터 소스의 수와 종류의 다양성
• 정형 데이터, 반정형 데이터, 비정형
데이터
• Crowd sourcing (클라우드 소싱)
Variety (데이터 다양성)
정형 데이터 비정형 데이터
고객 신상 데이터
매출 데이터
재고 데이터
회계 데이터 등
동영상 음악 메시지
소셜
미디어
위치정보 게시물
• 데이터의 짧은 변경 주기
• 실시간 또는 스트리밍 처리, 배치 처리
• CEP (Complex Event Processing)
• Machine learning (기계 학습)
Velocity (데이터 변화속도)
유통활동주기
수시간~수주 분,초
단위유통활용
• 대규모의 데이터 (100 TB 이상의
데이터)
KB (10^3, 2^10, KiloByte), MB (10^6, 2^20, MegaByte)
GB (10^9, 2^30, GigaByte), TB (10^12, 2^40, TeraByte)
PB (10^15, 2^50, PetaByte), EB (10^18, 2^60, ExaByte)
ZB (10^21, 2^70, ZettaByte), YB (10^14, 2^80, YottaByte)
• 메모리 기반 분석, 분산 컴퓨팅
• Collective intelligence (집단 지성)
RDBMS NoSQL
• 엔티티 간의 관계에 중점을 두고 테이블 구조를
설계하는 방식
• 데이터가 여러 행으로 존재
• 핵심데이터 관리
• 관계형데이터모델과 SQL문을 사용하지 않는
데이터베이스 시스템 혹은 저장소
• 단순히 키와 값의 쌍으로만 이루어져 있다
• Join이 없다
• 데이터를 하나의 집합된 형태로 저장
하둡(Hadoop) 이란 ?
 2005년 더그 커팅과 마이크 카파렐라가 개발.
 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크.
 데이터의 복제본을 저장하기 때문에 데이터 유실이나 장애가 발생했을 때도 데이터의 복구가 가능.
 분산파일시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고
분산처리시스템인 MapReduce를 이용해 데이터를 처리.
• Hadoop이 MS-SQL, Oracle, MySQL같은 RDBMS를 대체한다 ?
• Hadoop은 RDBMS가 아니니까 NoSQL이다 ?
MapReduce
분산컴퓨팅을 위한 자바 프로그램
GFS (Google File System)
2004년2002년 2006년2003년 2008년
NDFS HadoopGFS Web System
검색 페이지 수
한계
전환점 야후 - 시연
루씬의
독립 서브 프로젝트
NDFS+MapReduce
너치 분산파일시스템
오픈소스 구현
Nutch+GFS
• 여러 대의 컴퓨터를 조합해 대규모 기억장
치를 만드는 기술
• 분산파일 시스템으로 구글의 독자적인 기술
• 단일서버(master)와 여러 청크서버
(chunkserver)들로 구성
MapReduce
분산컴퓨팅을 위한 자바 프로그램
Application
GFS client
GFS chunkserver
Linux file system
GFS chunkserver
Linux file systemData messages
Control messages
… …
…
GFS master
File namespace Chunk 2ef()
Instructions to chunkserver
Chunkserver state
(file name,
chunk, index)
(chunk handle,
chunk locations)
/foo/bar
• 비즈니스에 효율적으로 적용하기 위한 다양한 서브 프로젝트
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된
데이터를 빠르게 처리할 수 있게 설계된 파일 시스템.
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
 대규모 데이터를 여러 대의 컴퓨터에 분산하여 병렬적으로 처리하는 맵(Map)단계
 중간 결과물을 이용하여 최종 결과에 적합한 데이터를 정리하는 리듀스(Reduce)단계
Map
Task
Reduce
Task
Final
Data
(key 1, value)
(key 2, value)
(key 3, value)
(key 1, value)
(key 1, value)
(key 1, value)
• Map
– 데이터를 가공해서 분류
• Reduce
– 분류된 데이터를 통합
Shuffling
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper
)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
분산
코디네이터
(Zookeeper)
분산환경에서
서버 간의 상호
조정이 필요한
다양한 서비스를
제공하는
시스템.
• 주키퍼(zookeeper)란 ?
- zookeeper는 동물 사육사라는 이름으로 분산처리 시스템에서 일괄적
으로 관리해주는 시스템을 뜻합니다.
- MapReduce를 위한 프로그램 코드의 생성
• 주키퍼(zookeeper)는 왜 필요한가 ?
- 분산처리 환경에서는 예상치 못하는 예외적인 부분이 많이 발생하게
되는데, 주로 네트워크장애, 일부 서비스/기능 예상치 못한 처리로 중지
나 장애, 서비스 업그레이드, 서버 확장 등에 문제가 발생할 수 있습니
다.
이러한 점들을 쉽게 해결 할 수 있는 시스템이 주키퍼입니다.
• 주키퍼(zookeeper)의 특징
- 네임서비스를 통한 부하분산
- 분산락이나 동화 문제 해결
- 장애상황 판단 및 복구
- 환경설정 관리
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper
)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
워크 플로우
관리
(Oozie)
작업을 관리하는
워크플로우 및
코디네이터
시스템
• 우지(Oozie)란 ?
- Hadoop Job을 관리하기 위한 워크플로우 스케줄러
시스템이다.
• 우지 워크플로우는 흐름제어노드와 액션노드로 구성된
다. 흐름제어노드는 워크플로우의 실행 흐름을 제어하
고 실제로 필요한 연산은 액션노드에서 실행된다.
• 각 액션 간 서로간의 제어 의존성을 지닌다.
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper
)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
분산
데이터베이스
(HBase)
HDFS 기반의
컬럼 기반
데이터베이스
데이터 마이닝
(Mahout)
데이터마이닝
알고리즘을
구현
• HBase 란 ?
- HDFS 기반의 컬럼 구조 Database입니
다.
• 구글 Bigtable의 설계를 기반으로 개발
• 인터페이스 제공
• 대용량 데이터를 안정적으로 처리
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
메타데이터 관리
(HCatalog)
생성한
데이터를 위한
테이블 및
스토리지 관리
서비스
• HCatalog 란 ?
- 하둡으로 생성한 데이터를 위한 테이블
및 스토리지 관리 서비스.
HCatalog
PigHive
MapReduce
RCFileText File
Sequence File
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
정형 데이터 수집
(Sqoop, Hiho)
대용량 데이터 전송 솔루션
• 다양한 DBMS의 자료를 HDFS로 Import/Export
- Command line 인터페이스
- JDBC 지원하는 모든 DBMS
- RDBMS(Oracle, Mysql) + Data Warehouse + NoSQL Datastore
• MapReduce를 위한 프로그램 코드의 생성
• 하둡기반 시스템과의 통합
- Hive, HBase, Oozie
• RBDMS와의 고성능 Connector 지원
• Cloudera에서 개발
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper
)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산환경에서 정의되어 있지
않은 데이터를 HDFS에 저장
• 척와(Chukwa) 란 ?
- 분산되어 있는 서버에서 로그 데이터를 수집하고, 수집된 데이터를 저장하며 분석
함.
• 하둡클러스터의 로그, 서버의 상태 정보 등을 관리 할 수 있음.
• 실시간 분석 가능, 수집된 로그 파일을 하둡 파일 시스템에 저장.
• 플럼(Flume) 란 ?
- 데이터 발생원으로부터 데이터를 수집해 파일 시스템에 안정적으로 저장
• 플럼(Flume)의 특징
- 기능 확장성
- 시스템 신뢰성
- 시스템 확장성
- 관리 용이성
• 페이스북에서 개발한 데이터 수집 플랫폼. Chuckwa와는 다르게 중앙 집중 서
버로 전송하는 방식.
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
데이터 마이닝
(Mahout)
데이터마이닝
알고리즘을
구현
• 머하웃(Mahout) 란 ?
- 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스.
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper
)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
직렬화
(Avro)
데이터
직렬화
지원
• 아브로(Avro) 란 ?
- 데이터 직렬화를 지원하는 프레임워크.
• JSON을 이용해 데이터 형식과 프로토콜
을 정의하며, 작고 빠른 바이너리 포맷으로
데이터를 직렬화합니다.
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
데이터 분석
(Pig, Hive)
HDFS에
저장된
데이터를
프로그램이
아닌 스크립트
언어로 쉽게
분석
• 피그(pig)란 ?
- 대용량 데이터셋을 다루기 위한 스크립트 언어.
• 개발이 복잡하고, 시간이 오래 걸리는 MapReduce의 단점을 보완하기 위한 것.
• 내부적으로 MapReduce로 변환해서 실행해야 하므로
MapReduce에 비해 성능이 떨어집니다.
• 기존 MapReduce보다는 과부하가 불가피하게 발생.
• 야후가 개발.
• SQL과 유사한 스크립트를 이용해 데이터 처리 기능 제공.
• 하이브(Hive)란 ?
- Hive는 SQL와 유사한 HiveQL문법을 사용하여 MapReduce를 작성하게 해주
는 도구이다.
• HiveQL 이라고 하는 SQL과 유사한 쿼리를 사용.
• 페이스북 주도로 개발.
• RDBMS처럼 테이블을 이용하여 쿼리를 수행하기 때문에
정형화 되지 않은 입력 소스들은 분석이 쉽지 않다.
직렬화
(Avro)
정형 데이터 수집
(Sqoop, Hiho)
비정형 데이터 수집
(Chukwa, Flume, Scribe)
분산 데이터 저장
(HDFS)
분산 데이터 처리
(MapReduce)
메타데이터 관리
(HCatalog)
데이터 마이닝
(Mahout)
데이터 분석
(Pig, Hive)
분산
코디네이터
(Zookeeper
)
워크 플로우
관리
(Oozie)
분산
데이터베이스
(HBase)
실시간 SQL 질의
(Impala, Tajo)
• 기업 별 Hadoop 구축 구성도
• 쇼핑몰 이용자의 구매내역을 빅데이터 기술을 활용하여 소비패턴을
분석하여 상품을 추천함으로써 전체 매출의 30% 상승에 기여함.
• ‘페이스북 익스체인지(Facebook Exchange)’ 라는 실시간 맞춤형 광고
서비스를 제공하여 기존 페이스북 광고에 비해 최대 16배 이상 비용 대비
효과를 보임
• 예상되는 소비자의 행동이 아닌 실제로 관찰되고 발생된 소비자의
행동정보를 분석함으로써 분석의 정확성을 높임
Questions

Contenu connexe

Tendances

하둡 타입과 포맷
하둡 타입과 포맷하둡 타입과 포맷
하둡 타입과 포맷
진호 박
 

Tendances (20)

Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoop
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
 
하둡 HDFS 훑어보기
하둡 HDFS 훑어보기하둡 HDFS 훑어보기
하둡 HDFS 훑어보기
 
Hive 입문 발표 자료
Hive 입문 발표 자료Hive 입문 발표 자료
Hive 입문 발표 자료
 
HDFS Overview
HDFS OverviewHDFS Overview
HDFS Overview
 
Hadoop overview
Hadoop overviewHadoop overview
Hadoop overview
 
하둡 타입과 포맷
하둡 타입과 포맷하둡 타입과 포맷
하둡 타입과 포맷
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Apache hive
Apache hiveApache hive
Apache hive
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 
하둡관리
하둡관리하둡관리
하둡관리
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Hive begins
Hive beginsHive begins
Hive begins
 
하둡 설치(의사분산모드)
하둡 설치(의사분산모드)하둡 설치(의사분산모드)
하둡 설치(의사분산모드)
 
20140522 uc집계 정민철_발표자료_최종
20140522 uc집계 정민철_발표자료_최종20140522 uc집계 정민철_발표자료_최종
20140522 uc집계 정민철_발표자료_최종
 

En vedette

NewSQL Database Overview
NewSQL Database OverviewNewSQL Database Overview
NewSQL Database Overview
Steve Min
 
[SSA] 04.sql on hadoop(2014.02.05)
[SSA] 04.sql on hadoop(2014.02.05)[SSA] 04.sql on hadoop(2014.02.05)
[SSA] 04.sql on hadoop(2014.02.05)
Steve Min
 
[SSA] 03.newsql database (2014.02.05)
[SSA] 03.newsql database (2014.02.05)[SSA] 03.newsql database (2014.02.05)
[SSA] 03.newsql database (2014.02.05)
Steve Min
 
Scala overview
Scala overviewScala overview
Scala overview
Steve Min
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
Steve Min
 

En vedette (16)

BigData, Hadoop과 Node.js
BigData, Hadoop과 Node.jsBigData, Hadoop과 Node.js
BigData, Hadoop과 Node.js
 
Cloud Music v1.0
Cloud Music v1.0Cloud Music v1.0
Cloud Music v1.0
 
NewSQL Database Overview
NewSQL Database OverviewNewSQL Database Overview
NewSQL Database Overview
 
Apache Htrace overview (20160520)
Apache Htrace overview (20160520)Apache Htrace overview (20160520)
Apache Htrace overview (20160520)
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
Html5 video
Html5 videoHtml5 video
Html5 video
 
[SSA] 04.sql on hadoop(2014.02.05)
[SSA] 04.sql on hadoop(2014.02.05)[SSA] 04.sql on hadoop(2014.02.05)
[SSA] 04.sql on hadoop(2014.02.05)
 
Apache Spark Overview part1 (20161107)
Apache Spark Overview part1 (20161107)Apache Spark Overview part1 (20161107)
Apache Spark Overview part1 (20161107)
 
Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0
 
[SSA] 03.newsql database (2014.02.05)
[SSA] 03.newsql database (2014.02.05)[SSA] 03.newsql database (2014.02.05)
[SSA] 03.newsql database (2014.02.05)
 
Apache Spark Overview part2 (20161117)
Apache Spark Overview part2 (20161117)Apache Spark Overview part2 (20161117)
Apache Spark Overview part2 (20161117)
 
Scala overview
Scala overviewScala overview
Scala overview
 
vertica_tmp_4.5
vertica_tmp_4.5vertica_tmp_4.5
vertica_tmp_4.5
 
RESTful API Design, Second Edition
RESTful API Design, Second EditionRESTful API Design, Second Edition
RESTful API Design, Second Edition
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 

Similaire à An introduction to hadoop

빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
현주 유
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
Wooseung Kim
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
Saltlux Inc.
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Channy Yun
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
Wooseung Kim
 

Similaire à An introduction to hadoop (20)

빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)
 
Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)Introduction to ankus(data mining and machine learning open source)
Introduction to ankus(data mining and machine learning open source)
 
엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화엔지니어 관점에서 바라본 데이터시각화
엔지니어 관점에서 바라본 데이터시각화
 
3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
하둡 시스템에 대한 10분 소개
하둡 시스템에 대한 10분 소개하둡 시스템에 대한 10분 소개
하둡 시스템에 대한 10분 소개
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
2012.04.11 미래사회와 빅 데이터(big data) 기술 nipa
 
log-monitoring-architecture.pdf
log-monitoring-architecture.pdflog-monitoring-architecture.pdf
log-monitoring-architecture.pdf
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래빅데이터 플랫폼 새로운 미래
빅데이터 플랫폼 새로운 미래
 
빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf빅데이터플랫폼구축_개방형플랫폼중심.pdf
빅데이터플랫폼구축_개방형플랫폼중심.pdf
 
[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 

An introduction to hadoop

  • 1. An Introduction to Hadoop 기술2팀 강 민 재 2014. 03. 07
  • 2. 빅데이터 소개 - 빅데이터 시대 - 빅데이터란? - 빅데이터 성격 하둡 소개 - 하둡이란? - 하둡의 등장배경 하둡 & 하둡 보조기술 - 하둡 구성기술(HDFS & MapReduce) - 하둡을 위한 보조기술 - 데이터 처리 과정 목 차 활용사례 - 하둡에코시스템 활용 사례 - 빅데이터 활용 사례
  • 3.
  • 4. 빅데이터(BigData)의 정의  사전적 의미 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술  또다른 의미 정해진 혹은 정해지지 않은 아주 많은(Big) 정보들(Data)을 수집, 저장, 관리, 분석하여 활용하는 기술. 구 분 기존 Data 데이터 양 • 테라바이트 수준 데이터 유형 • 정형데이터 중심 프로세스 및 기술 • 프로세스 및 기술이 상대적으로 단순 • 원인-결과 규명 중심 • 처리/분석 과정이 정형화. 빅데이터(BigData) • 페타바이트 수준(최소 100 테라바이트 이상) • 소셜 미디어 데이터, 로그 파일, 클릭스트림 데이터, 콜 센터 로그, 통신 CDR 로그 등 비정형 데이터의 비중이 높음 • 처리의 복잡성을 증대시키는 요인. • 다양한 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리 등으로 인해 처리 복잡도가 매우 높아, 분산 처리 기술이 필요 • 상관관계 규명 중심 • Hadoop, R, NoSQL 등 개방형 소프트웨어
  • 5. V3 또는 V4라 표현되는 빅데이터(BigData) 성격  가트너 그룹 : Volume(데이터 규모), Variety(데이터 다양성), Velocity(데이터 변화속도)  IBM : +Veracity(진실성)  브라이언 홉킨스 : +Variablility(가변성) Volume (데이터 규모) MB, GB 단위 규모 TB, PB, EB 단위 • 데이터 소스의 수와 종류의 다양성 • 정형 데이터, 반정형 데이터, 비정형 데이터 • Crowd sourcing (클라우드 소싱) Variety (데이터 다양성) 정형 데이터 비정형 데이터 고객 신상 데이터 매출 데이터 재고 데이터 회계 데이터 등 동영상 음악 메시지 소셜 미디어 위치정보 게시물 • 데이터의 짧은 변경 주기 • 실시간 또는 스트리밍 처리, 배치 처리 • CEP (Complex Event Processing) • Machine learning (기계 학습) Velocity (데이터 변화속도) 유통활동주기 수시간~수주 분,초 단위유통활용 • 대규모의 데이터 (100 TB 이상의 데이터) KB (10^3, 2^10, KiloByte), MB (10^6, 2^20, MegaByte) GB (10^9, 2^30, GigaByte), TB (10^12, 2^40, TeraByte) PB (10^15, 2^50, PetaByte), EB (10^18, 2^60, ExaByte) ZB (10^21, 2^70, ZettaByte), YB (10^14, 2^80, YottaByte) • 메모리 기반 분석, 분산 컴퓨팅 • Collective intelligence (집단 지성)
  • 6. RDBMS NoSQL • 엔티티 간의 관계에 중점을 두고 테이블 구조를 설계하는 방식 • 데이터가 여러 행으로 존재 • 핵심데이터 관리 • 관계형데이터모델과 SQL문을 사용하지 않는 데이터베이스 시스템 혹은 저장소 • 단순히 키와 값의 쌍으로만 이루어져 있다 • Join이 없다 • 데이터를 하나의 집합된 형태로 저장 하둡(Hadoop) 이란 ?  2005년 더그 커팅과 마이크 카파렐라가 개발.  대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크.  데이터의 복제본을 저장하기 때문에 데이터 유실이나 장애가 발생했을 때도 데이터의 복구가 가능.  분산파일시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고 분산처리시스템인 MapReduce를 이용해 데이터를 처리. • Hadoop이 MS-SQL, Oracle, MySQL같은 RDBMS를 대체한다 ? • Hadoop은 RDBMS가 아니니까 NoSQL이다 ?
  • 7. MapReduce 분산컴퓨팅을 위한 자바 프로그램 GFS (Google File System) 2004년2002년 2006년2003년 2008년 NDFS HadoopGFS Web System 검색 페이지 수 한계 전환점 야후 - 시연 루씬의 독립 서브 프로젝트 NDFS+MapReduce 너치 분산파일시스템 오픈소스 구현 Nutch+GFS • 여러 대의 컴퓨터를 조합해 대규모 기억장 치를 만드는 기술 • 분산파일 시스템으로 구글의 독자적인 기술 • 단일서버(master)와 여러 청크서버 (chunkserver)들로 구성 MapReduce 분산컴퓨팅을 위한 자바 프로그램 Application GFS client GFS chunkserver Linux file system GFS chunkserver Linux file systemData messages Control messages … … … GFS master File namespace Chunk 2ef() Instructions to chunkserver Chunkserver state (file name, chunk, index) (chunk handle, chunk locations) /foo/bar
  • 8. • 비즈니스에 효율적으로 적용하기 위한 다양한 서브 프로젝트 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo)
  • 9. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo)  수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템.
  • 10. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo)  대규모 데이터를 여러 대의 컴퓨터에 분산하여 병렬적으로 처리하는 맵(Map)단계  중간 결과물을 이용하여 최종 결과에 적합한 데이터를 정리하는 리듀스(Reduce)단계 Map Task Reduce Task Final Data (key 1, value) (key 2, value) (key 3, value) (key 1, value) (key 1, value) (key 1, value) • Map – 데이터를 가공해서 분류 • Reduce – 분류된 데이터를 통합 Shuffling
  • 11. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper ) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 분산 코디네이터 (Zookeeper) 분산환경에서 서버 간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템. • 주키퍼(zookeeper)란 ? - zookeeper는 동물 사육사라는 이름으로 분산처리 시스템에서 일괄적 으로 관리해주는 시스템을 뜻합니다. - MapReduce를 위한 프로그램 코드의 생성 • 주키퍼(zookeeper)는 왜 필요한가 ? - 분산처리 환경에서는 예상치 못하는 예외적인 부분이 많이 발생하게 되는데, 주로 네트워크장애, 일부 서비스/기능 예상치 못한 처리로 중지 나 장애, 서비스 업그레이드, 서버 확장 등에 문제가 발생할 수 있습니 다. 이러한 점들을 쉽게 해결 할 수 있는 시스템이 주키퍼입니다. • 주키퍼(zookeeper)의 특징 - 네임서비스를 통한 부하분산 - 분산락이나 동화 문제 해결 - 장애상황 판단 및 복구 - 환경설정 관리
  • 12. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper ) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 워크 플로우 관리 (Oozie) 작업을 관리하는 워크플로우 및 코디네이터 시스템 • 우지(Oozie)란 ? - Hadoop Job을 관리하기 위한 워크플로우 스케줄러 시스템이다. • 우지 워크플로우는 흐름제어노드와 액션노드로 구성된 다. 흐름제어노드는 워크플로우의 실행 흐름을 제어하 고 실제로 필요한 연산은 액션노드에서 실행된다. • 각 액션 간 서로간의 제어 의존성을 지닌다.
  • 13. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper ) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 분산 데이터베이스 (HBase) HDFS 기반의 컬럼 기반 데이터베이스 데이터 마이닝 (Mahout) 데이터마이닝 알고리즘을 구현 • HBase 란 ? - HDFS 기반의 컬럼 구조 Database입니 다. • 구글 Bigtable의 설계를 기반으로 개발 • 인터페이스 제공 • 대용량 데이터를 안정적으로 처리
  • 14. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 메타데이터 관리 (HCatalog) 생성한 데이터를 위한 테이블 및 스토리지 관리 서비스 • HCatalog 란 ? - 하둡으로 생성한 데이터를 위한 테이블 및 스토리지 관리 서비스. HCatalog PigHive MapReduce RCFileText File Sequence File
  • 15. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 정형 데이터 수집 (Sqoop, Hiho) 대용량 데이터 전송 솔루션 • 다양한 DBMS의 자료를 HDFS로 Import/Export - Command line 인터페이스 - JDBC 지원하는 모든 DBMS - RDBMS(Oracle, Mysql) + Data Warehouse + NoSQL Datastore • MapReduce를 위한 프로그램 코드의 생성 • 하둡기반 시스템과의 통합 - Hive, HBase, Oozie • RBDMS와의 고성능 Connector 지원 • Cloudera에서 개발
  • 16. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper ) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산환경에서 정의되어 있지 않은 데이터를 HDFS에 저장 • 척와(Chukwa) 란 ? - 분산되어 있는 서버에서 로그 데이터를 수집하고, 수집된 데이터를 저장하며 분석 함. • 하둡클러스터의 로그, 서버의 상태 정보 등을 관리 할 수 있음. • 실시간 분석 가능, 수집된 로그 파일을 하둡 파일 시스템에 저장. • 플럼(Flume) 란 ? - 데이터 발생원으로부터 데이터를 수집해 파일 시스템에 안정적으로 저장 • 플럼(Flume)의 특징 - 기능 확장성 - 시스템 신뢰성 - 시스템 확장성 - 관리 용이성 • 페이스북에서 개발한 데이터 수집 플랫폼. Chuckwa와는 다르게 중앙 집중 서 버로 전송하는 방식.
  • 17. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 데이터 마이닝 (Mahout) 데이터마이닝 알고리즘을 구현 • 머하웃(Mahout) 란 ? - 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스.
  • 18. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper ) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 직렬화 (Avro) 데이터 직렬화 지원 • 아브로(Avro) 란 ? - 데이터 직렬화를 지원하는 프레임워크. • JSON을 이용해 데이터 형식과 프로토콜 을 정의하며, 작고 빠른 바이너리 포맷으로 데이터를 직렬화합니다.
  • 19. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo) 데이터 분석 (Pig, Hive) HDFS에 저장된 데이터를 프로그램이 아닌 스크립트 언어로 쉽게 분석 • 피그(pig)란 ? - 대용량 데이터셋을 다루기 위한 스크립트 언어. • 개발이 복잡하고, 시간이 오래 걸리는 MapReduce의 단점을 보완하기 위한 것. • 내부적으로 MapReduce로 변환해서 실행해야 하므로 MapReduce에 비해 성능이 떨어집니다. • 기존 MapReduce보다는 과부하가 불가피하게 발생. • 야후가 개발. • SQL과 유사한 스크립트를 이용해 데이터 처리 기능 제공. • 하이브(Hive)란 ? - Hive는 SQL와 유사한 HiveQL문법을 사용하여 MapReduce를 작성하게 해주 는 도구이다. • HiveQL 이라고 하는 SQL과 유사한 쿼리를 사용. • 페이스북 주도로 개발. • RDBMS처럼 테이블을 이용하여 쿼리를 수행하기 때문에 정형화 되지 않은 입력 소스들은 분석이 쉽지 않다.
  • 20. 직렬화 (Avro) 정형 데이터 수집 (Sqoop, Hiho) 비정형 데이터 수집 (Chukwa, Flume, Scribe) 분산 데이터 저장 (HDFS) 분산 데이터 처리 (MapReduce) 메타데이터 관리 (HCatalog) 데이터 마이닝 (Mahout) 데이터 분석 (Pig, Hive) 분산 코디네이터 (Zookeeper ) 워크 플로우 관리 (Oozie) 분산 데이터베이스 (HBase) 실시간 SQL 질의 (Impala, Tajo)
  • 21. • 기업 별 Hadoop 구축 구성도
  • 22. • 쇼핑몰 이용자의 구매내역을 빅데이터 기술을 활용하여 소비패턴을 분석하여 상품을 추천함으로써 전체 매출의 30% 상승에 기여함. • ‘페이스북 익스체인지(Facebook Exchange)’ 라는 실시간 맞춤형 광고 서비스를 제공하여 기존 페이스북 광고에 비해 최대 16배 이상 비용 대비 효과를 보임 • 예상되는 소비자의 행동이 아닌 실제로 관찰되고 발생된 소비자의 행동정보를 분석함으로써 분석의 정확성을 높임