SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
아파치 하이브!
비즈니스 인텔리전스와

실시간 조회 관점에서
아파치 하이브 기여자 최종욱(Teddy Choi)

teddyjchoi@gmail.com
발표자
•

최종욱 (Teddy Choi)

teddyjchoi@gmail.com"

•

현 아파치 하이브 기여자

전 KT 넥스알 선임 연구원

•

벡터화, HBase 지원, 오류 수정 등
다양한 분야에서 작업
오늘의 두 주제

1. 고급 분석
(비즈니스 인텔리전스)

2. 실시간 조회
1. 비즈니스 인텔리전스
(Business Intelligence)
•

“구슬이 서말이라도 꿰어야 보배”

•

의사결정에 필요한 정보를 제공

•

비즈니스 인텔리전스 제품들이 자
료에 대한 통찰을 제공하며, 이 제품
들은 SQL을 바탕으로 데이터를 다
룬다. 또한 기존의 분석가들도 SQL
에 익숙하다.

SQL
아파치 하이브

(Apache Hive)
•

페이스북에서 익숙한 SQL 언어로 하
둡에서 대용량 자료를 다루기 위해 만
들고 오픈소스로 공개했다.

•

그 동안 많은 경쟁자들이 도전한다. 클
라우데라의 임팔라(Impala), 타조
(Tajo), 샤크(Shark) 등.

•

ODBC 드라이버 전문 제작 업체 심바
테크놀로지스에 따르면, 하이브는 여
전히 SQL 온/인 하둡 제품들의 실질
적인 표준으로 자리잡고 있다. 엑셀,
탈렌드, 마이크로스트래티지, SAP 하
나 등 주요 BI 관련 제품이 지원한다.
가장 많은 인증 기능도 제공한다.

SAPHANA
관련 제품들
클라우데라 임팔라"
아파치 하이브"
스팅어 계획

페이스북 프레스토"
IBM Big SQL"
아파치 타조"
피보탈 HAWQ

SQL 인 하둡

SQL 온 하둡
상호작용적 분석을 위해
다양한 기법 적용
(인메모리, MPP,
LLVM, …)

관련 제품들
SQL 인 하둡의 선구자,
맵리듀스의 한계로
상호작용적 분석에는 부적합
아파치 하이브!
스팅어 계획

클라우데라 임팔라!
페이스북 프레스토!
IBM Big SQL!
아파치 타조!
피보탈 HAWQ

SQL 인 하둡

SQL 온 하둡
관련 제품들 독자적인 자료 처리,
클러스터 추가 구성

클라우데라 임팔라!
아파치 하이브"
스팅어 계획
하둡 2 얀(YARN) 기반,
하둡 클러스터를 사용
SQL 인 하둡

페이스북 프레스토!
IBM Big SQL!
아파치 타조!
피보탈 HAWQ

SQL 온 하둡
관련 제품들
하이브 메타스토어 중심
클라우데라 임팔라!
아파치 하이브!
스팅어 계획

페이스북 프레스토!
IBM Big SQL!
아파치 타조"

(하이브 메타스토어 지원)

피보탈 HAWQ

SQL 인 하둡

SQL 온 하둡
스팅어 계획
(Stinger Initiative)
•

차세대 하이브를 이끌기 위한 광범위한
커뮤니티 주도의 노력이다
•

•

규모: 테라~페타바이트 규모의 질의
를 다루기 위해 설계된 유일한 SQL
하둡 인터페이스

•

•

속도: 상호작용적 질의 시간(초 단위)
을 위해 하이브 질의 성능을 100배까
지 향상

SQL: 하둡을 이용하는 분석 응용을
위한 가장 다양한 범위의 SQL 구문
을 지원

이 모든 것이 하둡 내에서 이뤄진다
속도: 상호작용적 질의 수행
Stinger Phase 3: Interactive Query In Hadoop
Query+27:+Pricing+Analy'cs+using+Star+Schema+Join++
Query+82:+Inventory+Analy'cs+Joining+2+Large+Fact+Tables+
1400s

190x*
Improvement*

3200s

200x*
Improvement*

65s
39s
14.9s

7.2s
TPCIDS*Query*27*

Hive 10

Hive 0.11 (Phase 1)

TPCIDS*Query*82*

Trunk (Phase 3)

All*Results*at*Scale*Factor*200*(Approximately*200GB*Data)*
© Hortonworks Inc. 2013.

Page 12
SQL: SQL 구문 확장

SQL: Enhancing SQL Semantics
Hive+SQL+Datatypes+

Hive+SQL+Seman'cs+

SQL Compliance

INT*

SELECT,*INSERT*

TINYINT/SMALLINT/BIGINT*

GROUP*BY,*ORDER*BY,*SORT*BY*

BOOLEAN*

JOIN*on*explicit*join*key*

FLOAT*

Inner,*outer,*cross*and*semi*joins*

DOUBLE*

SubIqueries*in*FROM*clause*

Hive 12 provides a wide
array of SQL datatypes
and semantics so your
existing tools integrate
more seamlessly with
Hadoop

STRING*

ROLLUP*and*CUBE*

TIMESTAMP*

UNION*

BINARY*

Windowing*Func:ons*(OVER,*RANK,*etc)*

DECIMAL*

Custom*Java*UDFs*

ARRAY,*MAP,*STRUCT,*UNION*

Standard*Aggrega:on*(SUM,*AVG,*etc.)*

DATE*

Advanced*UDFs*(ngram,*Xpath,*URL)**

VARCHAR*

SubIqueries*in*WHERE,*HAVING*

CHAR*

Expanded*JOIN*Syntax*
SQL*Compliant*Security*(GRANT,*etc.)*
INSERT/UPDATE/DELETE*(ACID)*
© Hortonworks Inc. 2013.

Available*
Hive*0.12*
Roadmap*
규모: 페타바이트 규모의

SCALE: Interactive Query at Petabyte Scale
상호작용적 질의
Sustained Query Times

Smaller Footprint

Apache Hive 0.12 provides
sustained acceptable query
times even at petabyte scale

Better encoding with ORC in
Apache Hive 0.12 reduces resource
requirements for your cluster

File+Size+Comparison+Across+Encoding+Methods+
Dataset:+TPCLDS+Scale+500+Dataset+

585+GB+
(Original+Size)+

505+GB+
(14%+Smaller)+

Impala+

221+GB+

(62%+Smaller)+

Hive+12+

131+GB+

(78%+Smaller)+

Encoded*with*

Text+

© Hortonworks Inc. 2013.

Encoded*with*

RCFile+

Encoded*with*

Parquet+

Encoded*with*

ORCFile+

•  Larger Block Sizes
•  Columnar format
arranges columns
adjacent within the
file for compression
& fast access
벡터화
(Vectorization)
•

•

C1

C2

R1
R2

예를 들어 기존 날짜 관련 SQL 함수
는 복잡한 처리 논리를 담은 객체를
매 레코드마다 생성하길 반복했으나
벡터화(vectorization)로 단 한 번
만 생성하여 재사용한다.

R3

마이크로소프트 SQL 서버 개발팀에
서 설계를 주도한다. 최종욱은 시간,
문자열 자료형 관련 벡터화 부분을
설계 및 구현했다.

R7

R4
R5
R6

R8
R9

기존 실행

C3

벡터화된 실행

•

레코드 단위 처리와 달리, 컬럼 단위
로 처리한다. 객체 생성 횟수를 줄이
고 CPU 캐쉬 적중률을 높여 처리 성
능을 높인다.

C4

C5
실제 적용한 최적화 기법들
•

Effective Java 2판 항목 5: 불필요한 객체의 생성을 피
하자

•

Timestamp 관련 함수들 최적화 (YEAR, MONTH, …)
•

•

연도나 월 등 단순한 필드는 객체 미생성

•
•

생성이 느린 Calendar, DateFormat 객체는 최대한
재사용

String 없이 byte 배열로 직접 접근

정규식 관련 함수들 최적화 (LIKE, RLIKE)
•
•

접미사 등 단순한 정규식은 Pattern 객체 미생성

•

String 없이 byte 배열로 직접 접근

•
•

생성이 느린 Pattern 객체는 최대한 재사용

UTF-8 디코딩 부분도 객체 생성을 최소화

이로써 해당 기능의 성능이 2~4배로 향상
중간 요약

1. 하이브는 빅데이터 비즈니스
 2. 하이브는 실시간 빅데이터

인텔리전스 제품 연동에 적합하다
조회 기능도 향상 중이다
2. 실시간 조회
•

이메일, 채팅 등이나 유저 클릭 등의
데이터가 생성되는 동시에 저장하
고 언제든지 불러오고 싶지만. 테라
~페타 바이트 단위로 쌓이고 밀리
초~나노 초 안에 조회해야한다면?
배치 처리 위주의 하둡이 다루기 힘
든 분야다.

•

페이스북, 라인 메신저 등의 글로벌
인터넷 서비스 회사에서 부딪힌 문
제다. 금융, 의료, 보안 등의 분야도
마찬가지다.
NoSQL
이력서 쓰는 방법
•

•

기존의 관계형 데이터베이스로 다
루기 힘든 대용량의 자료를 실시간
으로 다루기 위해 등장한 새로운 데
이터베이스의 통칭이다. 분산 시스
템, 비정형 자료, SQL 미지원, 비정
규화, 약한 일관성 등의 특징 중 일
부를 공유한다.
몽고디비, 카우치디비, HBase, 카
산드라 등이 유명하다.

SQL 한 번이라도

써본 적 있어?

아니

상관 없어.
“NO SQL 전문가”
라고 적어

NoSQL 인기에 묻어가기
아파치 HBase
•

HBase는 레코드 단위의 실시간 처
리를 제공하는 NoSQL 제품이다.
카산드라나 몽고디비 등 경쟁제품
과 달리 하둡 클러스터에서 작동한
다. 하둡의 보완재 역할을 한다.

•

페이스북과 라인 메신저 등의 성공
사례가 나왔다.

•

SQL과 다른 독자적인 질의 언어를
사용하여 프로그래머들에게 부담이
된다.
SQL 온 HBase
•

HBase를 SQL로 다루는 기술이
다. 하이브, 임팔라에서 기본으로 지
원하나, 단일키 등 기본적인 기능을
지원한다.

•

세일즈포스에서 피닉스(Phoenix)
를 공개했다. 복합키, 스킵 스캔, 이
차 색인 등 다양한 최적화 도입으로
성능을 높였다. 반면 고급 분석 함수
와 조인 등의 SQL 기능 구현이 부
족한 부분이 있어 이를 보완할 방법
이 필요하다.
하이브-HBase 최적화 사례
•

최종욱은 하이브에서 HBase 이중
키 지원 및 질의문 최적화 기능 추가
했다.

•

주어진 질의문의 조건절을 논리합
표준형(DNF)으로 변환하고 각 조
건별 중복 범위 제거 등의 최적화 기
술을 도입하여 10GB 테이블을 대
상으로 단건 및 복수건 처리 시간을
수 분~수 시간에서 밀리 초~수 초
로 단축했다.

•

조만간 관련 내용을 하이브 본 코드
에 반영할 계획이다.
변환 단계
1. 로우키와 무관한 컬럼 제거
2. 논리합 표준형으로 변환

SELECT … WHERE …
> (…AND…) OR (…AND…)

3. AND 절 별 범위 처리

(…AND…) OR (…AND…)
> (…~…) OR (…~…)

4. 전체 중복 범위 처리
5. 수행계획 SQL 변환 및 전달

(0~1000) + (4000~5000)
> (BETWEEN 0 AND 1000)

OR (BETWEEN 4000 AND 5000)
고려중인 방안

1. 순수하게 하이브로 제작

2. 피닉스 연동
요약

1. 하이브는 빅데이터 비즈니스
 2. 하이브는 실시간 빅데이터

인텔리전스 제품 연동에 적합하다
조회 기능도 향상 중이다
함께 볼만한 오픈소스들
"

•
•

타조(Tajo): 하이브의 맵리
듀스 등 병목구간을 제거한
분산 데이터웨어하우스. 한
국 업체인 그루터 등이 참
여.
"

올챙이(Tapole): 하이브
등 다양한 DB를 지원하는
편리한 웹 DB 클라이언트.

•

피그(Pig): 인기가 높은 하
둡 데이터 처리용 스크립트
언어.
감사합니다.
"

질문 있나요?
참고 자료
•

“State of the Hive Market” Simba Technologies, 2013 http://www.slideshare.net/
GeorgeChow1/2013-1028hugstateofthemarket-27709824

•

“Apache Hive and Stinger: SQL in Hadoop” Hortonworks, 2013 http://
www.slideshare.net/alanfgates/strata-stingertalk-oct2013

•

“분석 소프트웨어 실행 화면” MicroStrategy, 2013 http://www.microstrategy.com/
platforms/analytics

•

“NoSQL” Geek And Poke, 2011 http://geekandpoke.typepad.com/geekandpoke/
2011/01/nosql.html

•

“상표” 해당 상표 소유 회사 또는 단체, 2013

•

“Wild bee hive” Carly Lesser & Art, 2013 http://www.flickr.com/photos/wiredwitch/
2302523896/ under CC BY-SA 2.0

•

“Q&A” Quinn Dombrowski, 2013 http://www.flickr.com/photos/quinnanya/
4080820343/ under CC BY-SA 2.0

Contenu connexe

Tendances

Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Gruter
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)Steve Min
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료Teddy Choi
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesJongwook Woo
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Matthew (정재화)
 
Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)Sang-bae Lim
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대DaeHeon Oh
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Sanghee Lee
 
Cloudera & Zookeeper
Cloudera & ZookeeperCloudera & Zookeeper
Cloudera & ZookeeperJunyoung Park
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with TajoGruter
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106SangHoon Lee
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoopLGU+
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWSGruter
 

Tendances (20)

Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013Tajo and SQL-on-Hadoop in Tech Planet 2013
Tajo and SQL-on-Hadoop in Tech Planet 2013
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)
 
서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료서울 하둡 사용자 모임 발표자료
서울 하둡 사용자 모임 발표자료
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
Introduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use CasesIntroduction to Hadoop, Big Data, Training, Use Cases
Introduction to Hadoop, Big Data, Training, Use Cases
 
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
Hadoop과 SQL-on-Hadoop (A short intro to Hadoop and SQL-on-Hadoop)
 
Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)Spark Day 2017@Seoul(Spark Bootcamp)
Spark Day 2017@Seoul(Spark Bootcamp)
 
Hadoop 제주대
Hadoop 제주대Hadoop 제주대
Hadoop 제주대
 
Apache hive
Apache hiveApache hive
Apache hive
 
Hive begins
Hive beginsHive begins
Hive begins
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
 
Cloudera & Zookeeper
Cloudera & ZookeeperCloudera & Zookeeper
Cloudera & Zookeeper
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
 
Distributed Programming Framework, hadoop
Distributed Programming Framework, hadoopDistributed Programming Framework, hadoop
Distributed Programming Framework, hadoop
 
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS스타트업사례로 본 로그 데이터분석 : Tajo on AWS
스타트업사례로 본 로그 데이터분석 : Tajo on AWS
 

En vedette

팀웍에 대한 새로운 견해. (출처: 원아웃)
팀웍에 대한 새로운 견해. (출처: 원아웃)팀웍에 대한 새로운 견해. (출처: 원아웃)
팀웍에 대한 새로운 견해. (출처: 원아웃)Unyong (Sheldon) Choi
 
SW1차 프로젝트 Hive 최종발표
SW1차 프로젝트 Hive 최종발표SW1차 프로젝트 Hive 최종발표
SW1차 프로젝트 Hive 최종발표Sinhyub Kim
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK TelecomGruter
 
하이브 최적화 방안
하이브 최적화 방안하이브 최적화 방안
하이브 최적화 방안Teddy Choi
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
비즈니스 데이터 분석의 현재와 미래
비즈니스 데이터 분석의 현재와 미래비즈니스 데이터 분석의 현재와 미래
비즈니스 데이터 분석의 현재와 미래HT Kim
 
하둡완벽가이드 Ch9
하둡완벽가이드 Ch9하둡완벽가이드 Ch9
하둡완벽가이드 Ch9HyeonSeok Choi
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁datasciencekorea
 
QlikView ppt
QlikView pptQlikView ppt
QlikView pptTomi Lee
 

En vedette (9)

팀웍에 대한 새로운 견해. (출처: 원아웃)
팀웍에 대한 새로운 견해. (출처: 원아웃)팀웍에 대한 새로운 견해. (출처: 원아웃)
팀웍에 대한 새로운 견해. (출처: 원아웃)
 
SW1차 프로젝트 Hive 최종발표
SW1차 프로젝트 Hive 최종발표SW1차 프로젝트 Hive 최종발표
SW1차 프로젝트 Hive 최종발표
 
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo,  and application case of SK TelecomSQL-on-Hadoop with Apache Tajo,  and application case of SK Telecom
SQL-on-Hadoop with Apache Tajo, and application case of SK Telecom
 
하이브 최적화 방안
하이브 최적화 방안하이브 최적화 방안
하이브 최적화 방안
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
비즈니스 데이터 분석의 현재와 미래
비즈니스 데이터 분석의 현재와 미래비즈니스 데이터 분석의 현재와 미래
비즈니스 데이터 분석의 현재와 미래
 
하둡완벽가이드 Ch9
하둡완벽가이드 Ch9하둡완벽가이드 Ch9
하둡완벽가이드 Ch9
 
데이터 시각화의 글로벌 동향 20140819 - 고영혁
데이터 시각화의 글로벌 동향   20140819 - 고영혁데이터 시각화의 글로벌 동향   20140819 - 고영혁
데이터 시각화의 글로벌 동향 20140819 - 고영혁
 
QlikView ppt
QlikView pptQlikView ppt
QlikView ppt
 

Similaire à Apache Hive: for business intelligence use and real-time I/O use (Korean)

[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)NAVER D2
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴Terry Cho
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)hkh
 
PyCon2020 NLP beginner's BERT challenge
PyCon2020 NLP beginner's BERT challengePyCon2020 NLP beginner's BERT challenge
PyCon2020 NLP beginner's BERT challengeYoongi Kim
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big dataH K Yoon
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해Terry Cho
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)Amazon Web Services Korea
 
Python & Spark
Python & SparkPython & Spark
Python & Sparkitproman35
 
Tadpole DB Hub 1.0.0
Tadpole DB Hub 1.0.0Tadpole DB Hub 1.0.0
Tadpole DB Hub 1.0.0cho hyun jong
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...hoondong kim
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03Devgear
 
HTML5 스펙 소개
HTML5 스펙 소개HTML5 스펙 소개
HTML5 스펙 소개Toby Yun
 
Introduction of W3C HTML5 Korean Interest Group
Introduction of W3C HTML5 Korean Interest GroupIntroduction of W3C HTML5 Korean Interest Group
Introduction of W3C HTML5 Korean Interest GroupWonsuk Lee
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Jungsu Heo
 
웹 개발 스터디 01 - HTML, CSS
웹 개발 스터디 01 - HTML, CSS웹 개발 스터디 01 - HTML, CSS
웹 개발 스터디 01 - HTML, CSSYu Yongwoo
 
[122]네이버의모던웹라이브러리 박재성
[122]네이버의모던웹라이브러리 박재성[122]네이버의모던웹라이브러리 박재성
[122]네이버의모던웹라이브러리 박재성NAVER D2
 
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준NAVER D2
 

Similaire à Apache Hive: for business intelligence use and real-time I/O use (Korean) (20)

[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴4. 대용량 아키텍쳐 설계 패턴
4. 대용량 아키텍쳐 설계 패턴
 
Prepo
PrepoPrepo
Prepo
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 
PyCon2020 NLP beginner's BERT challenge
PyCon2020 NLP beginner's BERT challengePyCon2020 NLP beginner's BERT challenge
PyCon2020 NLP beginner's BERT challenge
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
소프트웨어 개발 트랜드 및 MSA (마이크로 서비스 아키텍쳐)의 이해
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
 
Python & Spark
Python & SparkPython & Spark
Python & Spark
 
Tadpole DB Hub 1.0.0
Tadpole DB Hub 1.0.0Tadpole DB Hub 1.0.0
Tadpole DB Hub 1.0.0
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
 
HTML5 스펙 소개
HTML5 스펙 소개HTML5 스펙 소개
HTML5 스펙 소개
 
Introduction of W3C HTML5 Korean Interest Group
Introduction of W3C HTML5 Korean Interest GroupIntroduction of W3C HTML5 Korean Interest Group
Introduction of W3C HTML5 Korean Interest Group
 
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
 
웹 개발 스터디 01 - HTML, CSS
웹 개발 스터디 01 - HTML, CSS웹 개발 스터디 01 - HTML, CSS
웹 개발 스터디 01 - HTML, CSS
 
[122]네이버의모던웹라이브러리 박재성
[122]네이버의모던웹라이브러리 박재성[122]네이버의모던웹라이브러리 박재성
[122]네이버의모던웹라이브러리 박재성
 
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준
 

Dernier

캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 

Dernier (6)

캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 

Apache Hive: for business intelligence use and real-time I/O use (Korean)

  • 1. 아파치 하이브! 비즈니스 인텔리전스와
 실시간 조회 관점에서 아파치 하이브 기여자 최종욱(Teddy Choi)
 teddyjchoi@gmail.com
  • 2. 발표자 • 최종욱 (Teddy Choi)
 teddyjchoi@gmail.com" • 현 아파치 하이브 기여자
 전 KT 넥스알 선임 연구원 • 벡터화, HBase 지원, 오류 수정 등 다양한 분야에서 작업
  • 3. 오늘의 두 주제 1. 고급 분석 (비즈니스 인텔리전스) 2. 실시간 조회
  • 4. 1. 비즈니스 인텔리전스 (Business Intelligence) • “구슬이 서말이라도 꿰어야 보배” • 의사결정에 필요한 정보를 제공 • 비즈니스 인텔리전스 제품들이 자 료에 대한 통찰을 제공하며, 이 제품 들은 SQL을 바탕으로 데이터를 다 룬다. 또한 기존의 분석가들도 SQL 에 익숙하다. SQL
  • 5. 아파치 하이브
 (Apache Hive) • 페이스북에서 익숙한 SQL 언어로 하 둡에서 대용량 자료를 다루기 위해 만 들고 오픈소스로 공개했다. • 그 동안 많은 경쟁자들이 도전한다. 클 라우데라의 임팔라(Impala), 타조 (Tajo), 샤크(Shark) 등. • ODBC 드라이버 전문 제작 업체 심바 테크놀로지스에 따르면, 하이브는 여 전히 SQL 온/인 하둡 제품들의 실질 적인 표준으로 자리잡고 있다. 엑셀, 탈렌드, 마이크로스트래티지, SAP 하 나 등 주요 BI 관련 제품이 지원한다. 가장 많은 인증 기능도 제공한다. SAPHANA
  • 6. 관련 제품들 클라우데라 임팔라" 아파치 하이브" 스팅어 계획 페이스북 프레스토" IBM Big SQL" 아파치 타조" 피보탈 HAWQ SQL 인 하둡 SQL 온 하둡
  • 7. 상호작용적 분석을 위해 다양한 기법 적용 (인메모리, MPP, LLVM, …) 관련 제품들 SQL 인 하둡의 선구자, 맵리듀스의 한계로 상호작용적 분석에는 부적합 아파치 하이브! 스팅어 계획 클라우데라 임팔라! 페이스북 프레스토! IBM Big SQL! 아파치 타조! 피보탈 HAWQ SQL 인 하둡 SQL 온 하둡
  • 8. 관련 제품들 독자적인 자료 처리, 클러스터 추가 구성 클라우데라 임팔라! 아파치 하이브" 스팅어 계획 하둡 2 얀(YARN) 기반, 하둡 클러스터를 사용 SQL 인 하둡 페이스북 프레스토! IBM Big SQL! 아파치 타조! 피보탈 HAWQ SQL 온 하둡
  • 9. 관련 제품들 하이브 메타스토어 중심 클라우데라 임팔라! 아파치 하이브! 스팅어 계획 페이스북 프레스토! IBM Big SQL! 아파치 타조" (하이브 메타스토어 지원) 피보탈 HAWQ SQL 인 하둡 SQL 온 하둡
  • 10. 스팅어 계획 (Stinger Initiative) • 차세대 하이브를 이끌기 위한 광범위한 커뮤니티 주도의 노력이다 • • 규모: 테라~페타바이트 규모의 질의 를 다루기 위해 설계된 유일한 SQL 하둡 인터페이스 • • 속도: 상호작용적 질의 시간(초 단위) 을 위해 하이브 질의 성능을 100배까 지 향상 SQL: 하둡을 이용하는 분석 응용을 위한 가장 다양한 범위의 SQL 구문 을 지원 이 모든 것이 하둡 내에서 이뤄진다
  • 11. 속도: 상호작용적 질의 수행 Stinger Phase 3: Interactive Query In Hadoop Query+27:+Pricing+Analy'cs+using+Star+Schema+Join++ Query+82:+Inventory+Analy'cs+Joining+2+Large+Fact+Tables+ 1400s 190x* Improvement* 3200s 200x* Improvement* 65s 39s 14.9s 7.2s TPCIDS*Query*27* Hive 10 Hive 0.11 (Phase 1) TPCIDS*Query*82* Trunk (Phase 3) All*Results*at*Scale*Factor*200*(Approximately*200GB*Data)* © Hortonworks Inc. 2013. Page 12
  • 12. SQL: SQL 구문 확장 SQL: Enhancing SQL Semantics Hive+SQL+Datatypes+ Hive+SQL+Seman'cs+ SQL Compliance INT* SELECT,*INSERT* TINYINT/SMALLINT/BIGINT* GROUP*BY,*ORDER*BY,*SORT*BY* BOOLEAN* JOIN*on*explicit*join*key* FLOAT* Inner,*outer,*cross*and*semi*joins* DOUBLE* SubIqueries*in*FROM*clause* Hive 12 provides a wide array of SQL datatypes and semantics so your existing tools integrate more seamlessly with Hadoop STRING* ROLLUP*and*CUBE* TIMESTAMP* UNION* BINARY* Windowing*Func:ons*(OVER,*RANK,*etc)* DECIMAL* Custom*Java*UDFs* ARRAY,*MAP,*STRUCT,*UNION* Standard*Aggrega:on*(SUM,*AVG,*etc.)* DATE* Advanced*UDFs*(ngram,*Xpath,*URL)** VARCHAR* SubIqueries*in*WHERE,*HAVING* CHAR* Expanded*JOIN*Syntax* SQL*Compliant*Security*(GRANT,*etc.)* INSERT/UPDATE/DELETE*(ACID)* © Hortonworks Inc. 2013. Available* Hive*0.12* Roadmap*
  • 13. 규모: 페타바이트 규모의
 SCALE: Interactive Query at Petabyte Scale 상호작용적 질의 Sustained Query Times Smaller Footprint Apache Hive 0.12 provides sustained acceptable query times even at petabyte scale Better encoding with ORC in Apache Hive 0.12 reduces resource requirements for your cluster File+Size+Comparison+Across+Encoding+Methods+ Dataset:+TPCLDS+Scale+500+Dataset+ 585+GB+ (Original+Size)+ 505+GB+ (14%+Smaller)+ Impala+ 221+GB+ (62%+Smaller)+ Hive+12+ 131+GB+ (78%+Smaller)+ Encoded*with* Text+ © Hortonworks Inc. 2013. Encoded*with* RCFile+ Encoded*with* Parquet+ Encoded*with* ORCFile+ •  Larger Block Sizes •  Columnar format arranges columns adjacent within the file for compression & fast access
  • 14. 벡터화 (Vectorization) • • C1 C2 R1 R2 예를 들어 기존 날짜 관련 SQL 함수 는 복잡한 처리 논리를 담은 객체를 매 레코드마다 생성하길 반복했으나 벡터화(vectorization)로 단 한 번 만 생성하여 재사용한다. R3 마이크로소프트 SQL 서버 개발팀에 서 설계를 주도한다. 최종욱은 시간, 문자열 자료형 관련 벡터화 부분을 설계 및 구현했다. R7 R4 R5 R6 R8 R9 기존 실행 C3 벡터화된 실행 • 레코드 단위 처리와 달리, 컬럼 단위 로 처리한다. 객체 생성 횟수를 줄이 고 CPU 캐쉬 적중률을 높여 처리 성 능을 높인다. C4 C5
  • 15. 실제 적용한 최적화 기법들 • Effective Java 2판 항목 5: 불필요한 객체의 생성을 피 하자 • Timestamp 관련 함수들 최적화 (YEAR, MONTH, …) • • 연도나 월 등 단순한 필드는 객체 미생성 • • 생성이 느린 Calendar, DateFormat 객체는 최대한 재사용 String 없이 byte 배열로 직접 접근 정규식 관련 함수들 최적화 (LIKE, RLIKE) • • 접미사 등 단순한 정규식은 Pattern 객체 미생성 • String 없이 byte 배열로 직접 접근 • • 생성이 느린 Pattern 객체는 최대한 재사용 UTF-8 디코딩 부분도 객체 생성을 최소화 이로써 해당 기능의 성능이 2~4배로 향상
  • 16. 중간 요약 1. 하이브는 빅데이터 비즈니스
 2. 하이브는 실시간 빅데이터
 인텔리전스 제품 연동에 적합하다 조회 기능도 향상 중이다
  • 17. 2. 실시간 조회 • 이메일, 채팅 등이나 유저 클릭 등의 데이터가 생성되는 동시에 저장하 고 언제든지 불러오고 싶지만. 테라 ~페타 바이트 단위로 쌓이고 밀리 초~나노 초 안에 조회해야한다면? 배치 처리 위주의 하둡이 다루기 힘 든 분야다. • 페이스북, 라인 메신저 등의 글로벌 인터넷 서비스 회사에서 부딪힌 문 제다. 금융, 의료, 보안 등의 분야도 마찬가지다.
  • 18. NoSQL 이력서 쓰는 방법 • • 기존의 관계형 데이터베이스로 다 루기 힘든 대용량의 자료를 실시간 으로 다루기 위해 등장한 새로운 데 이터베이스의 통칭이다. 분산 시스 템, 비정형 자료, SQL 미지원, 비정 규화, 약한 일관성 등의 특징 중 일 부를 공유한다. 몽고디비, 카우치디비, HBase, 카 산드라 등이 유명하다. SQL 한 번이라도
 써본 적 있어? 아니 상관 없어. “NO SQL 전문가” 라고 적어 NoSQL 인기에 묻어가기
  • 19. 아파치 HBase • HBase는 레코드 단위의 실시간 처 리를 제공하는 NoSQL 제품이다. 카산드라나 몽고디비 등 경쟁제품 과 달리 하둡 클러스터에서 작동한 다. 하둡의 보완재 역할을 한다. • 페이스북과 라인 메신저 등의 성공 사례가 나왔다. • SQL과 다른 독자적인 질의 언어를 사용하여 프로그래머들에게 부담이 된다.
  • 20. SQL 온 HBase • HBase를 SQL로 다루는 기술이 다. 하이브, 임팔라에서 기본으로 지 원하나, 단일키 등 기본적인 기능을 지원한다. • 세일즈포스에서 피닉스(Phoenix) 를 공개했다. 복합키, 스킵 스캔, 이 차 색인 등 다양한 최적화 도입으로 성능을 높였다. 반면 고급 분석 함수 와 조인 등의 SQL 기능 구현이 부 족한 부분이 있어 이를 보완할 방법 이 필요하다.
  • 21. 하이브-HBase 최적화 사례 • 최종욱은 하이브에서 HBase 이중 키 지원 및 질의문 최적화 기능 추가 했다. • 주어진 질의문의 조건절을 논리합 표준형(DNF)으로 변환하고 각 조 건별 중복 범위 제거 등의 최적화 기 술을 도입하여 10GB 테이블을 대 상으로 단건 및 복수건 처리 시간을 수 분~수 시간에서 밀리 초~수 초 로 단축했다. • 조만간 관련 내용을 하이브 본 코드 에 반영할 계획이다.
  • 22. 변환 단계 1. 로우키와 무관한 컬럼 제거 2. 논리합 표준형으로 변환 SELECT … WHERE … > (…AND…) OR (…AND…) 3. AND 절 별 범위 처리 (…AND…) OR (…AND…) > (…~…) OR (…~…) 4. 전체 중복 범위 처리 5. 수행계획 SQL 변환 및 전달 (0~1000) + (4000~5000) > (BETWEEN 0 AND 1000)
 OR (BETWEEN 4000 AND 5000)
  • 23. 고려중인 방안 1. 순수하게 하이브로 제작 2. 피닉스 연동
  • 24. 요약 1. 하이브는 빅데이터 비즈니스
 2. 하이브는 실시간 빅데이터
 인텔리전스 제품 연동에 적합하다 조회 기능도 향상 중이다
  • 25. 함께 볼만한 오픈소스들 " • • 타조(Tajo): 하이브의 맵리 듀스 등 병목구간을 제거한 분산 데이터웨어하우스. 한 국 업체인 그루터 등이 참 여. " 올챙이(Tapole): 하이브 등 다양한 DB를 지원하는 편리한 웹 DB 클라이언트. • 피그(Pig): 인기가 높은 하 둡 데이터 처리용 스크립트 언어.
  • 27. 참고 자료 • “State of the Hive Market” Simba Technologies, 2013 http://www.slideshare.net/ GeorgeChow1/2013-1028hugstateofthemarket-27709824 • “Apache Hive and Stinger: SQL in Hadoop” Hortonworks, 2013 http:// www.slideshare.net/alanfgates/strata-stingertalk-oct2013 • “분석 소프트웨어 실행 화면” MicroStrategy, 2013 http://www.microstrategy.com/ platforms/analytics • “NoSQL” Geek And Poke, 2011 http://geekandpoke.typepad.com/geekandpoke/ 2011/01/nosql.html • “상표” 해당 상표 소유 회사 또는 단체, 2013 • “Wild bee hive” Carly Lesser & Art, 2013 http://www.flickr.com/photos/wiredwitch/ 2302523896/ under CC BY-SA 2.0 • “Q&A” Quinn Dombrowski, 2013 http://www.flickr.com/photos/quinnanya/ 4080820343/ under CC BY-SA 2.0