1. Bigdata & Hadoop Ecosystem
Technology Company
ⓒ 2014 IMCLOUD COMPANY ALL RIGHTS RESERVED
㈜아임클라우드
빅데이터솔루션소개
2. CONTENTS
2. 제품 & 기술
3. 구축사례
1. 회사 개요
ⓒ 2014 IMCLOUD COMPANY ALL RIGHTS RESERVED
3. 3
㈜아임클라우드는 빅데이터 솔루션 개발 전문 회사 입니다.
Hadoop Echosystem 오픈 소스 기반의 S/W플랫폼을
이용한 다양한 빅데이터 응용 솔루션 구축과
빅데이터 시스템 및 서비스 구축을 도와 드립니다.
타사와 차별화된 Hadoop 플랫폼 기술에 강점을 가지고
다양한 산업 분야의 빅데이터를 쉽게 활용할 수 있는 노하우를
가지고 있습니다.
회사 소개 1. 회사개요
4. 4
ImCloud 솔루션 사업 영역 (Hadoop Ecosystem)
빅데이터 플랫폼
㈜아임클라우드는 Hadoop Ecosystem 기반의 솔루션과 개발 전문 회사입니다.
- Apache Hadoop Ecosystem 기반의 다양한 배포판 기반 개발 가능
- Cloudera, Hortonworks, MAPR 등 다양한 하둡 배포판 기반 구축 가능
사업 영역 1. 회사개요
보안 로그 분석 솔루션
데이터 시각화 솔루션
5. 5
주요 파트너 및 고객사
㈜아임클라우드는 다양한 빅데이터 관련 파트너사와 관계를 가지고
다수의 고객을 확보하고 있습니다.
고객 및 파트너 1. 회사개요
최근 수행 주요 프로젝트
수행 완료 또는 진행중 :
현대자동차 빅데이터 거버넌스 프로젝트 / 핵융합연구소 빅데이터 분석시스템 구축 / 중기청 산업기술보호협회 빅데이터 보안로그 시스템
/ 한전 KDN 빅데이터 보안로그 /해태제과 빅데이터 분석시스템 / SAS&HP 골드마인(생산센서) 빅데이터 제품 공동개발
/ 경찰대학 학사행정 빅데이터 분석 / 선문대학교 공동 온천수 빅데이터 분석 시스템 등등
수행예정 프로젝트 : 철도청 빅데이터 시스템 구축, 근로복지공단 빅데이터 프로젝트, 현대자동차 빅데이터 보안로그(파일럿)
6. 6
회사 연혁 1. 회사개요
회사명 (주)아임클라우드 대표자 이두식
사업분야
업태 사업서비스업
종목 소프트웨어 개발 및 공급업
주소 서울시 강남구 역삼동 828-29 문현빌딩 3층
전화번호 02-6472-0410 FAX 02-6482-0410
회사
설립년도
2014년 4월
해당부문
종사기간
2014년 4월 ~ 현재 (1년 2개월)
주요
연혁
2015/05 • 파스트림 리셀러 협약 체결
2015/01 • 빅데이터 기반 보안로그 분석 솔루션 출시
2014/11 • 현대자동차 전사 빅데이터 거버넌스 컨설팅 사업 진행
2014/10 • 빅데이터 기반 시각화 솔루션 ‘I’mBee for Visual’ 출시
2014/06 • (주)아임클라우드 빅데이터 플랫폼 ‘아임비‘ 출시(Hadoop 기반 빅데이터 플랫폼)
2014/04 • 주식회사 아임클라우드 법인 설립
대표이사총인원 15명
7. 7
핵심 개발자 리소스 1. 회사개요
핵심 인력 직급/역할 최종학력 주요 경력
이두식 대표 고려대/미디어공학(석사)
경력 총 22년
- 한국 Microsoft (개발툴 엔지니어, 기술 컨설턴트)
- 옥션 (시스템 운영팀장, 해외사업개발팀장)
- NHN (수석 프로젝트 매니저)
: 지식iN검색,네이버Me,me2Day,N드라이브,메일 등등
- KTB투자증권 (신사업개발팀장)
: 소셜미디어 빅데이터 개발, 모바일 트레이딩 개발
권오주 이사/데이터전문가 서울대/원자핵공학(학사)
- DW, OLAP, BI 전문가 (20년차)
- 주요 프로젝트
삼성전자, 신세계, SKT 정보 분석 컨설팅 및 프로젝트 경험 다수
김택중 이사/개발자 국민대/경제학(학사)
- SCM 공장 자동화 개발 전문가 (20년차)
- 데이터 분석 및 빅데이터 개발 전문가
- 현대자동차 빅데이터거버넌스, LG전자, 삼성전자 등
최승필 과장/개발자 서울대/전기공학(학사)
Hadoop, R분석 빅데이터 개발자
- 핵융합연구소, 코리아닷컴 등 다수 프로젝트
박정숙 부장/개발자 한국외대/전산과(학사) Microsoft 개발툴엔지니어, 오피스기술지원
노원석 개발팀장/개발자 청주대/전산과(학사)
- Hadoop, Hive, Flume, Java, Node.js 등 빅데이터 개발자
- 전파관리소,핵융합연구소,산업기술보호협회 프로젝트 다수
노승학 사원/개발자 고려대/컴퓨터공학
- Hadoop, Hive, Flume, Java, Node.js 등 빅데이터 개발자
- KDN, 산업기술보호협회 프로젝트 다수
오태현 대리/개발자 상명대/소프트웨어공학(학사)
Hadoop, Hive, Flume, Java, Node.js 등 빅데이터 개발자
- 신세계 빅데이터프로젝트 등 다수 프로젝트
장한길 사원/개발자 명지대/철학과 빅데이터 시각화 전문 개발자
김진영 기획팀장 한국국제예술원 실용음악과 빅데이터 기술 기획
김극호 서비스 기술 기획 대림대 경영정보과 빅데이터 기술 기획
9. 9
수집,저장,처리 구성 요소에 대한 통합 및 상세 모니터링 기능과 함께 직관적인 작업 레벨의 관리 기
능을 제공합니다. (HDFS, Flume, Sqoop, Hive 관련 관리 기능)
빅데이터 플랫폼 관리 서비스
제품 소개 I’mBee 2. 제품&기술
10. 10
다양한 소스로부터 빅데이터를 수집하여 통합된 빅데이터 플랫폼 저장소에 저장
하여 통합 고급 분석을 수행 가능하도록 하는 빅데이터 분석 플랫폼을 구성
빅데이터 플랫폼 아키텍쳐
데이터
고속
수집
시각화 서비스
(조회,통계)
HTMP5, JQuery, JSON
R 기반 분산화된
통계 분석 처리
빅데이터 관리자 Admin
(모니터링 서비스)
Solr 검색 엔진
(검색 데이터 인덱싱)
Hive : SQL on Hadoop 기반 분산 처리 프레임워크
대용량 빅데이터 저장소 (Hadoop, HDFS, NoSQL 기반)
정형데이터, 반정형데이터, 비정형데이터 수용
I’MBEE 빅데이터 플랫폼
수집 장비
수집
시스템
수집 DB
수집 Data
통합
고급 분석
기존
운영시스템
연동
기술소개 : 빅데이터 플랫폼 솔루션 2. 제품&기술
11. 11
본 솔루션은 Hadoop 오픈소스를 통해 대용량 데이터의 수집, 저장, 처리, 검색에
대한 최적의 기능을 지원함으로써 고객이 원하는 빅데이터 처리 성능을 제공함.
빅데이터 플랫폼 시스템 아키텍처
시스템 아키텍처
기술소개 : 빅데이터 플랫폼 솔루션
Flume장비
Source
Channel
Sync
시스템
RDB
수집
설정
Hadoop (HDFS)
Hive
Web Service / Node.js
Admin
1. 수집
2. 저장/처리
6. 시각화
7. Job 스케쥴러
스키마
관리
스케쥴러 설정
3. 고급분석
4. 검색엔진
RServe
Solr
/Elastic
s-earch
분석
모듈
(결과)
검색
모듈
(결과)
대시
보드
수집
설정
탐색
시각화
통계
조회
모니
터링
Sqoop
Oozie
Storm or
Spark streaming
HBase (NoSQL)
5. 실시간 스트림 처리
Mahout
MapReduce
Pig
2. 제품&기술
12. 12
- Hadoop과 연동되는 다양한 오픈소스 생태계 형성 (Hadoop Ecosystem)
- 오픈 소스 버전 호환성 유지가 중요함
- 운영,보안을 위해서 기업용 상용 플랫폼 등장 (Cloudera, Hortonworks, I’mCloud)
- 다양한 아키텍처 구성 가능
2. 제품&기술
기술소개 : 하둡 에코시스템
13. 13
하드웨어 구성 방법
수집서버
서버 구성
Hadoop 서버
(Name Node1)
검색서버
분석 서버
조회,시각화,
모니터링 서버
Hadoop 서버
(Name Node2)
Hadoop 서버
(DataNode1)
Hadoop 서버
(DataNode2)
Hadoop 서버
(DataNode3)
Hadoop 서버
(DataNode4)
* Data 저장 부분은 Hadoop 대신 noSQL로 구축 가능함
2. 제품&기술
기술소개 : 하두웨어 구축 (예)
14. 14
용도 수량 서버사양
네트워크 스위치 2 L2 Switch Gigabit 8
Hadoop Namenode 2 6core* 2CPU (12core)
Memory 64G
HDD SAS 15K 600G * 4
Hadoop Datanode 6 6core* 2CPU (12core)
Memory 64G
HDD SATA 3TB * 4
수집서버 2 6core* 2CPU (12core)
Memory 64G
HDD SAS 15K 600G * 4
검색서버 2 6core* 2CPU (12core)
Memory 64G
HDD SAS 15K 600G * 4
분석서버 2 6core* 2CPU (12core)
Memory 64G
HDD SAS 15K 600G * 4
관리서버 (Admin서버) 1 6core* 2CPU (12core)
Memory 64G
HDD SAS 15K 600G * 4
* 하드웨어 사양
: Full Rack 기준 L2스위치 2개, 전체서버 15대
(상세 사양과 대수는 설계 과정에서 변동될 수 있습니다.)
2. 제품&기술
기술소개 : 하두웨어 구축 (예)
15. 15
수집 엔진 동작 방식 (Flume, Sqoop)
- 다양한 데이터 Type 수집 (정형,비정형,파일)
- 대용량 고속 Scale-out (분산병렬 서버 수집엔진 구성)
- 용도별 수집 엔진 구성 (Flume to Flume)
- 수집 과정에서 MetaData 관리 (저장 스키마, 수집 건수, Time생성 등)
- 저장하기 전에 데이터 전처리 과정이 필요하기도 함
Hadoop
Sqoop
Syslog,
TCP/IP
JDBC
Hadoop
API
Hadoop
(HDFS)
비정형 데이터 (Log)
정형 데이터 (RDB)
File(이미지,동영상)
수집 저장 실시간 검색 분석 시각화
수집
Meta Data
Legacy
System
2. 제품&기술
기술소개 : 수집엔진 (오픈소스)
16. 16
HDFS 저장 Architecture (Hadoop)
- Data Node 는 논리적으로 Ring node 형태로 묶임
- 64MB Block 단위로 Replication (Default 3)
수집 저장 실시간 검색 분석 시각화
A A
A
B BB
2. 제품&기술
기술소개 : 저장,처리 엔진 (오픈소스)
17. 17
NoSQL
수집 저장 실시간 검색 분석 시각화
CAP 이론
일관성
Consistency
모든 노드들은 같은 시간에 동일한 항목에 대해
같은 내용의 데이터를 사용자에게 보여줌
가용성
Availability
모든 사용자들이 읽기 및 쓰기가 가능하고 여러
노드의 장애시에 다른노드에 영향을 주지 않음
Partition
Tolerance
노드 간의 메시지 손실 (부분적 결함)이 있어도
자동 복구되어 정상적으로 동작한다.
RDB NoSQL
- Scale out
- 분산처리
- 파티셔닝
- 복제
- Scale Up
- 고성능
- 고비용
2. 제품&기술
기술소개 : 저장,처리 엔진 (오픈소스)
18. 18
Data Stream Process (Spark or Storm)
수집 저장 실시간 검색 분석 시각화
Apache Storm : 실시간 데이터 분석 시스템
Topology -데이터 처리 흐름을 정의
-데이터를 읽어올 스트림 정의
-읽어드린 스트림 처리 로직 정의
Stream -Tuple의 흐름을 스트림으로 정의함
-Tuple은 데이터 타입을 포함 및 정의
Spout -스트림의 소스를 지칭하는 컴포넌트
-Spot는 하나이상의 스트림에 튜플을 전송함
Bolt -Topology의 모든 처리작업을 Bolt에서 진행
-Bolt는 스트림을 필요한 데이터 스트림으로
변환함
Spout
Bolt
New Data
Stream
Precomputed
Batch
Realtime
View #1
Realtime
View #2
Query
2. 제품&기술
기술소개 : 실시간스트리밍 (오픈소스)
19. 19
검색엔진 (Solr)
수집 저장 실시간 검색 분석 시각화
<Solr 의 주요 특징>
- Powerful full-text search,
hit highlighting
- Database integration,
rich document (Word, PDF ..)
- Dynamic clustering,
distributed search and indexing
Lucene 기반의 검색 엔진
최근에는 cloud 환경에 최적화된 clustering
기능이 강화된 Elastic Search 오픈소스 등장
2. 제품&기술
기술소개 : 검색 엔진 (오픈소스)
20. 20
빅데이터 시각화
수집 저장 실시간 검색 분석 시각화
- 데이터 분석결과를 바탕으로 다양한 시각화 방법에 적용
2. 제품&기술
기술소개 : 시각화 기술 D3, Node.js (오픈소스)
21. 21
D3 (Data Driven Documents)
시각화 D3 기술
수집 저장 실시간 검색 분석 시각화
Sample #3 : Featured Map
Sample #3 : 다양한 오픈소스 D3 컴포넌트들
2. 제품&기술
기술소개 : 시각화 기술 (오픈소스)
22. 22
HTML5, JQuery, JSON, Node.js등 표준적인 스크립트 개발 기술을 이용하여
다양한 빅데이터 시각화 서비스 구현 (빅데이서 시각화에 최적화된 다양항 오픈소스 활용)
Node.js
Client Web
Browser
Hadoop
Hive
Solr
R
Flume
Sqoop
Oozie
Server-
side
Script
Client-
side
Script
ECMA Script, JSON, JQuery, HTML5, socket.io
Tool
연동
Interface
Bigdata Opensource
Server-side
Client-side
Open
Source
Interface
외부
Tool 연동
제품소개 : 시각화 솔루션 (D3 & node.js) 2. 제품&기술
23. 제품소개 : 빅데이터 보안로그 분석 솔루션
23
ImBee for Security는 아임클라우드의 Hadoop기반의 빅데이터 플랫폼을 기반으로
한 빅데이터 전용 보안 로그 분석 솔루션 입니다.
Firewall
IPS
DDOS
보안 장비
통합 관제
보안 위협
통합 검색
장기간
공격패턴
분석
[장비 통합 수집 및 관제]
[보안 위협 상관 분석]
[통합 검색 및 iP추적]
ImBee for Security 개요
3.구축사례
25. 프로젝트 구축 사례 - 현대자동차 3.구축사례
(현대자동차 빅데이터 전사 글로벌 빅데이터 아키텍처 구축 프로젝트]
Teradata 와 공동 수행
본 프로젝트의 빅데이터 거버넌스 관리를 위한 통합 프레임워크 수립 및 빅데이터 운영, 보완, 품질, 표준 관리 방안과
Hadoop 어플리케이션 개발에 필요한 개발 방법론 수립을 수행 범위로 합니다.
빅데이터 거버넌스 수립을 위한 데이터 / 보안 /
운영 관리 / 개발 체계를 포괄하는 통합 프레임워
크 수립
빅데이터
거버넌스
프레임워크
빅데이터 시스
템 운영관리
빅데이터
거버넌스
프레임워크
빅데이터 보
안 관리
빅데이터 품
질관리
데이터 관리
표준
빅데이터 시
스템 개발방
법론
수행 범위
빅데이터 시스템 운영에 필요한 운영조직, 모니터
링, 장애/확장 관리, 성능/버전 관리 체계 수립
빅데이터
시스템 운
영관리
빅데이터에 대한 암호화 및 사용자 권한 관리, 로
그 분석 / 모니터링 관리 체계 수립
빅데이터
보안 관리
빅데이터 시스템과 기존 시스템의 통합적인 데이
터 관리 체계 수립
데이터 관
리 표준
빅데이터 수집 / 저장 / 활용 / 운영의 라이프 사
이클 단계별 데이터 품질관리 체계 수립
빅데이터
품질 관리
Hadoop 어플리케이션 개발에 필요한 아키텍처
및 개발 표준, 개발 기술별 활용 기준 수립
빅데이터
시스템 개
발방법론
H사 빅데이터 전사 거버넌스 컨설팅 (Teradata와 공동 수행)
26. 26
통신
Agent
수
집
변
환
저
장
추
출
Hadoop
Data
Node
Data
Node
Data
Node
Solr
R
Node.js
검색
통계분석
시각화
웹서비스
웹브라우저
HTML5, Javascript
웹 서비스 구현
분석
Rule
Flume
실시간
수집
BASS
실시간 알람
<Device>
Problem
Solution
- 대용량 Log 데이터 수집
(1T/day이상)
- Data 손실 없는 수집 처리
- 실시간 알람 기능 필요
- 대용량 데이터 저장 필요
- 대용량 데이터 검색 기능 필요
- 통계적 기법 적용 분석 기능 필요
- 전력품질로그, 보안로그 등 적용
- 수집 전용 엔진 + 통신 Agent 연동
- Flume 엔진의 Memory Cache
- Hadoop Data Node 대용량 저장
- Storm 적용 실시간 알람
- Solr 적용 전체 Log 데이터 인덱싱
- R 적용 시계열 분석, 이상징후 분석
프로젝트 구축 사례 구현 Sample : 로그분석 (전력로그) 3.구축사례
27. 27
프로젝트 구축 사례 구현 Sample : 생산설비 센서 빅데이터 분석 3.구축사례
Store, Batch (Hadoop)
3. Oozie 스케줄러
MR
Job
Hive
Job
HDFS
Impala
Collection
-LogStash
1. Syslog 수집
2. 전처리
-Node.js
(CEP)
Kafka
센서
수집
프로그램
분석
프로그램
실시간스트리밍
배치분석
시각화
28. 28
대시보드 –메인화면
step1. 서버 실시간 수집 건수
- 보안장비에서 들어오는 로그 건수를 실시간(3초단위)
으로 시간과 날짜별로 확인할 수 있는 화면
step2. 일일 수집 건수
- 보안장비에서 들어오는 로그 건수를 날짜별로 확인
할 수 있는 화면
step3. 서버 상태 모니터링
- 실시간으로 서버의 CPU, Memory 등을 확인
step4. 보안 장비별 수집 건수
- 수집으로 지정된 보안 장비별로 전체 로그량을
비교할 수 있는 화면
3 4
21
구현 UI Sample : 보안로그 분석 대시보드 3.구축사례
29. 29
검색 –지역 검색
step9. 국내 지역 별 타겟 IP 검색
- 국내 지점의 지역별로 로그 수집 현황을 검색할 수
있음
* 화면은 경기도를 타겟으로 하는 IP를 검색한 결과
step10. 국가별 소스 IP 검색
- 검색 조건 컬럼 선택이 가능하며(콤보박스)
AND, OR 조건으로 조합 검색 가능
*Sample 화면을 보면 추적하던 167.25.104.154 IP가
브라질로부터 온 IP임을 알 수 있음
9
10
구현 UI Sample : 보안로그 분석 검색 3.구축사례
30. 30
분석 - 군집화
step11. 군집화(대역)
-장비 별 로그 수집 건수 및 내용을 시각적으로
확인할 수 있는 그래프
검색 결과 방화벽,I-TMS,J-TMS중 방화벽에서
들어오는 로그가 가장 많음을 알 수 있으며
클릭 시 관련 IP를 확인 할 수 있다.
11
구현 UI Sample : 보안로그 군집분석 3.구축사례
31. 31
분석 –추적 관리
step13. IP 추적 라인
- 기간별로 IP에 대한 보안 장비 경로를 추적하는 기능
*화면은 군집화에서 이동한 2014/05/12 ~ 2014/06/05
기간에서 167.25.104.154 IP를 검색한 경우이다.
step14. IP 추적라인 내용
- 검색 결과 안쪽부터 방화벽/IDS/IPS를 지나
3개의 포트로 나뉘어져 지나갔음을 알 수 있다.
13
14
구현 UI Sample : 보안로그 추적분석 3.구축사례
32. 32
대시보드 소개
1 2
43
Step1. 실시간 수집건수
- 전력로그의 실시간 수집 선수를 표현
Step3. 서버 상태 표시
- 메인 서버의 사용량등의 상태를 표시
Step2. 일일 수집건수
- 전력로그의 일일 수집 선수를 표현
Step4. 알람 발생 유형
- 유형별 알람을 % 표시
구현 UI Sample : 전력품질로그 분석 대시보드 3.구축사례
33. 33
실시간 검색
Step1. 실시간 로그 검색
- 실시간으로 들어오는 데이터를 관제
Step3. 실시간 데이터 시계열 그래프 관제화면
Step2. 실시간 데이터 막대차트 관제화면
1
2
3
구현 UI Sample : 전력품질로그 실시간분석 3.구축사례
34. 34
알람 임계치 설정
Step1. 알람 설정
- 장비 전력 임계치에 대한 설정을 할 수있는 화면
Step2. 알람 조회
- 알람 기록을 검색할 수 있는 화면
1
2
구현 UI Sample : 전력품질로그 임계치 알람설정 3.구축사례
35. 감사합니다
COMPANY IMCLOUD
(주)아임클라우드 TEL : 02-6472-0410 E.mail : imcloud@imcloud.co.kr ⓒ 2014 IMCLOUD COMPANY ALL RIGHTS RESERVED
㈜아임클라우드 솔루션 문의
이두식 대표 : dslee@imcloud.co.kr
김진영 기획팀장 : jykim@imcloud.co.kr