hadoop ch1

하둡
아키텍트를 꿈꾸는 사람들

하둡
아키텍처를 꿈꾸는 사람들

하둡을 시작하며..
1.1 데이터
1.2 데이터 저장소와 분석
1.3 다른 시스템과의 비교
1.4 하둡의 역사
1.5 아파치 하둡과 하둡 생태계

현재 사회의 큰 데이터(Big data?!)
현재 사회는 엄청난 데이터의 홍수
- NYSE, 매일 1테라 바이트의 거래 데이터
- facebook, 10억개의 사진 저장
- 힉스 입자 가속기, 매년 15페타바이트
페타>테라>기가

MyLifeBits
- Microsoft research
- 개인이 생산하고 있는 모든 정보를 저장
- 한 달에 1GB
-

Big Data vs 알고리즘
- 일반적으로 더 많은 데이터가 더 좋은 알고리
즘 보다 낫다
- 구글 : 중국어 번역
이제는 Big Data는 우리 주변에,
나쁜소식은 어떻게 처리를 할 것인가...

1.2 데이터 저장소와 분석

저장용량 / 엑세스 속도
- 저장용량 증가폭 > 엑세스 속도 증가폭
해결책 : 여러 하드에 분산, 병렬 처리
but, 1. 장애 확률도 덩달아 높아짐
2. 분할된 데이터를 다시 결합 하는 cost

저장용량 / 엑세스 속도
- 저장용량 증가폭 > 엑세스 속도 증가폭
해결책 : 여러 하드에 분산, 병렬 처리
but, 1. 장애 확률도 덩달아 높아짐
2. 분할된 데이터를 다시 결합 하는 cost
1 -> HDFS
2 -> MapReduce

1.3 다른 시스템과의 비교
<Hadoop>
MapReduce is a programming model for
processing large data sets with a parallel,
distributed algorithm on a cluster
Map(k1,v1) → list(k2,v2)
Reduce(k2, list (v2)) → list(v3)

1.3.1 관계형 데이터베이스
- 구조화된 데이터 / 비구조화된 데이터
- 정규화 / 정규화X
- 비선형으로 확장 / 선형으로 확장

1.3.2 그리드 컴퓨팅
- 수백 기가 바이트처리시, 네트워크 병목
Hadoop, 데이터가 로컬 -> 빠름
- 복잡한 아키텍처
Hadoop, 무공유 아키텍처

1.3.3 자발적 컴퓨팅
- SETI@home, 메르센 소수 찾기,
Folding@home
(http://cafe.naver.com/setikah)
- CPU중심적, CPU > 전송시간

- 조어(made-up name)
"내 아이가 봉제 인형인 노란 코끼리에게 지어준
이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽
고, 특별한 의미는 없다."

더그커팅
- 아파치 루씬 - 아파치 너치 - 하둡
- GFS -> NDFS
- 맵리듀스 -> NDFS

공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인
터페이스 집합
에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리
지를 위한 데이터 직렬화 시스템
맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분
산 데이터 처리 모델/실행환경
HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분
산 파일 시스템

피그:탐색용 데이터 흐름 언어
하이브:분산 데이터웨어하우스
HBASE:분산 컬럼 지향DB
주키퍼:고가용성 조정 서비스
스쿱:관계형DB와 HDFS간 데이터를 이동시키
기 위한 도구
오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워
크플로우를 실행/스케쥴링

hadoop ch1

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (13)

Similaire à hadoop ch1

Similaire à hadoop ch1 (20)

Plus de Mungyu Choi

Plus de Mungyu Choi (17)

hadoop ch1