Apache Zeppelin으로 데이터 분석하기

•

130 j'aime•22,867 vues

SangWoo Kim

Apache Zeppelin은 Apache Spark을 기반으로 한 웹기반 노트북&시각화 툴입니다. http://zeppelin.incubator.apache.org/

Logiciels

Apache Zeppelin
으로 데이터 분석하기
2015-01-19
스사모 (한국 스파크 사용자 모임)
https://www.facebook.com/groups/sparkkoreauser/
김상우, VCNC(비트윈), Zeppelin 커미터
kevin@between.us, kevinkim@apache.org
powered by

Apache Zeppelin
• 데이터 분석가, 개발자들을 위한 웹기반 노트북, 시각화 툴
• Spark, SparkSQL의 결과를 바로 차트로 그릴 수 있음
• 2014년 12월에 Apache 소프트웨어 재단의 Incubating
프로젝트가 됨
• Apache Tajo, Apache Flink 등 다양한 엔진을 결합 시도

기존의 Workﬂow
데이터 저장
데이터 정제, 처리
요약 데이터
시각화
고급 분석
• 다양한 제품을 조합하여 데이터 분석을 하는것이 일반적
• 많은 엔지니어링이 필요함
• 다방면에 경험 많은 분석가들 혹은 팀의 전유물
• 파이프라인이 복잡하기에, 고장나기 쉽고 유지보수 어려움

새로운 Workﬂow
데이터 저장
데이터 정제, 처리
요약 데이터
시각화
고급 분석
데이터 정제, 처리, 요약 데이터 시각화,
고급 분석까지 전부 Spark과 Zeppelin으로 해결

Notebook
• 소스코드 작성, 수정, 자동저장, 실행
• Scala (Spark), Spark SQL, Markdown 등 지원

Notebook (2)
• Paragraph들의 실행 상태를 컨트롤
• Paragraph들의 모양 및 위치 조정, 제목 표시 등 편집 가능

Notebook (3)
• 여러개의 노트북을 생성, 목록으로 관리 가능
• 분석 작업 코드 및 결과물을 효율적으로 관리

Visualization
• Spark SQL 수행 결과를 Table, Line Chart, Pie Chart 등 다양한 형태로 시각화
• Spark의 좋은 성능 덕분에 대부분 코드가 즉시 실행되므로 interactive 하게 데이
터를 다룰 수 있게 됨

Visualization (2)
• HTML을 표현 가능하므로, 테이블에 이미지를 표시하거나, link를 넣거나 하는 등의
동작이 가능
• SparkSQL의 간편한 UDF(User Deﬁned Function) 등록 기능과 결합하면 편리함

Dashboard
• Default, Simple, Report 뷰 모드를 제공함
• 코드를 가려주는 Report 뷰 모드를 활용하면 Dashboard를 빠르게 만들수 있음
• 코드와 차트들이 한군데 있으므로 손쉽게 페이지를 새로 만들고, 유지 관리 가능

Dashboard (2)
• 자체적으로 Schedule 기능 내장
• 매일 혹은 매 시간 업데이트 되는 Dashboard나, Batch작업을 관리하기 용이함

Zeppelin을 추천합니다
• 간단하게 데이터 분석을 시작해보려는 사람
• Spark을 처음 시작하려는 사람
• Dashboard를 빠르게 만들고 싶은 사람
• 민첩하게 이런저런 데이터를 살펴보고 분석하는 작업
• 오픈소스 프로젝트에 참여해보고 싶은 사람

Recommandé

Spark & Zeppelin을 활용한 머신러닝 실전 적용기Taejun Kim

Presto, Zeppelin을 이용한 초간단 BI 구축 사례Hyoungjun Kim

Interactive workflow management using Azkabandatamantra

Big Data BenchmarkingVenkata Naga Ravi

BGP FlowSpec experience and future developmentsPavel Odintsov

Apache NiFi SDLC ImprovementsBryan Bende

Jvm & Garbage collection tuning for low latencies applicationQuentin Ambard

DB Monitoring 개념 및 활용 (박명규)WhaTap Labs

Recommandé

Spark & Zeppelin을 활용한 머신러닝 실전 적용기Taejun Kim

Presto, Zeppelin을 이용한 초간단 BI 구축 사례Hyoungjun Kim

Interactive workflow management using Azkabandatamantra

Big Data BenchmarkingVenkata Naga Ravi

BGP FlowSpec experience and future developmentsPavel Odintsov

Apache NiFi SDLC ImprovementsBryan Bende

Jvm & Garbage collection tuning for low latencies applicationQuentin Ambard

DB Monitoring 개념 및 활용 (박명규)WhaTap Labs

Redis: Swiss Army Knife @HackerRank: Kamal JoshiRedis Labs

Understanding of Apache kafka metrics for monitoring SANG WON PARK

Transformer ZooGrigory Sapunov

Apache Ambari Stack ExtensibilityJayush Luniya

Elastic Search (엘라스틱서치) 입문SeungHyun Eom

Shared Infrastructure for Data ScienceWes McKinney

NLP tutorial at AIME 2020Rui Zhang

Apache Arrow Flight OverviewJacques Nadeau

딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO

머신러닝의 자연어 처리기술(I)홍배 김

로그 기깔나게 잘 디자인하는 법Jeongsang Baek

Apache kafka performance(throughput) - without data loss and guaranteeing dat...SANG WON PARK

한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기Hangil Kim

Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Web Services Korea

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon

AWS Builders - Industry Edition: DevSecOps on AWS - 시작은 IAM 부터Amazon Web Services Korea

커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...Amazon Web Services Korea

Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안SANG WON PARK

HBaseCon 2015: Taming GC Pauses for Large Java Heap in HBaseHBaseCon

Random Thoughts on Paper Implementations [KAIST 2018]Taehoon Kim

Data Visualization - What can you see? #baai17Eugene O'Loughlin

Big Data Real Time Analytics - A Facebook Case StudyNati Shalom

Contenu connexe

Tendances

Redis: Swiss Army Knife @HackerRank: Kamal JoshiRedis Labs

Understanding of Apache kafka metrics for monitoring SANG WON PARK

Transformer ZooGrigory Sapunov

Apache Ambari Stack ExtensibilityJayush Luniya

Elastic Search (엘라스틱서치) 입문SeungHyun Eom

Shared Infrastructure for Data ScienceWes McKinney

NLP tutorial at AIME 2020Rui Zhang

Apache Arrow Flight OverviewJacques Nadeau

딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO

머신러닝의 자연어 처리기술(I)홍배 김

로그 기깔나게 잘 디자인하는 법Jeongsang Baek

Apache kafka performance(throughput) - without data loss and guaranteeing dat...SANG WON PARK

한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기Hangil Kim

Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Web Services Korea

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon

AWS Builders - Industry Edition: DevSecOps on AWS - 시작은 IAM 부터Amazon Web Services Korea

Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안SANG WON PARK

HBaseCon 2015: Taming GC Pauses for Large Java Heap in HBaseHBaseCon

Random Thoughts on Paper Implementations [KAIST 2018]Taehoon Kim

Tendances (20)

Redis: Swiss Army Knife @HackerRank: Kamal Joshi

Understanding of Apache kafka metrics for monitoring

Transformer Zoo

Apache Ambari Stack Extensibility

Elastic Search (엘라스틱서치) 입문

Shared Infrastructure for Data Science

NLP tutorial at AIME 2020

Apache Arrow Flight Overview

딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)

머신러닝의 자연어 처리기술(I)

로그 기깔나게 잘 디자인하는 법

Apache kafka performance(throughput) - without data loss and guaranteeing dat...

한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기

Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유

AWS Builders - Industry Edition: DevSecOps on AWS - 시작은 IAM 부터

커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...

Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안

HBaseCon 2015: Taming GC Pauses for Large Java Heap in HBase

Random Thoughts on Paper Implementations [KAIST 2018]

En vedette

Data Visualization - What can you see? #baai17Eugene O'Loughlin

Big Data Real Time Analytics - A Facebook Case StudyNati Shalom

Data Visualization ToolsLegal Services National Technology Assistance Project (LSNTAP)

Principles of Data VisualizationEamonn Maguire

Brief introduction to data visualizationZach Gemignani

Sparkly Notebook: Interactive Analysis and Visualization with Sparkfelixcss

Zeppelin(Spark)으로 데이터 분석하기SangWoo Kim

En vedette (7)

Data Visualization - What can you see? #baai17

Big Data Real Time Analytics - A Facebook Case Study

Data Visualization Tools

Principles of Data Visualization

Brief introduction to data visualization

Sparkly Notebook: Interactive Analysis and Visualization with Spark

Zeppelin(Spark)으로 데이터 분석하기

Similaire à Apache Zeppelin으로 데이터 분석하기

Apache spark 소개 및 실습동현 강

Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106SangHoon Lee

Cloudera session seoul - Spark bootcampSang-bae Lim

[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축Juhong Park

Service Worker 를 이용한  Offline Web Application 구현병태 정

제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축BOAZ Bigdata

Elastic Stack & Data pipelineJongho Woo

[236] 카카오의데이터파이프라인 윤도영NAVER D2

Collaboration with Eclipse finalKenu, GwangNam Heo

spark database Service창언 정

Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Jungsu Heo

Spark Day 2017 Machine Learning & Deep Learning With SparkSangHoon Lee

Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기AWSKRUG - AWS한국사용자모임

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)Hyojun Jeon

포털 검색어 순위 수집 및 분석 후기Kyuhyun Byun

빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지위키북스

Spark streaming tutorialMinho Kim

[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람OpenStack Korea Community

How to use apache spark (based on the java example)월간 IT 슬라이드

(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?탑크리에듀(구로디지털단지역3번출구 2분거리)

Similaire à Apache Zeppelin으로 데이터 분석하기 (20)

Apache spark 소개 및 실습

Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106

Cloudera session seoul - Spark bootcamp

[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축

Service Worker 를 이용한  Offline Web Application 구현

제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [Catch, Traffic!] : 지하철 혼잡도 및 키워드 분석 데이터 파이프라인 구축

Elastic Stack & Data pipeline

[236] 카카오의데이터파이프라인 윤도영

Collaboration with Eclipse final

spark database Service

Web Analytics at Scale with Elasticsearch @ naver.com - Part 1

Spark Day 2017 Machine Learning & Deep Learning With Spark

Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기

[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유 (2부)

포털 검색어 순위 수집 및 분석 후기

빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지

Spark streaming tutorial

[OpenStack Days Korea 2016] Track2 - 데이터센터에 부는 오픈 소스 하드웨어 바람

How to use apache spark (based on the java example)

(Apacje Spark)아파치 스파크 개요, 소개, 스파크란?

Apache Zeppelin으로 데이터 분석하기

1. Apache Zeppelin 으로 데이터 분석하기 2015-01-19 스사모 (한국 스파크 사용자 모임) https://www.facebook.com/groups/sparkkoreauser/ 김상우, VCNC(비트윈), Zeppelin 커미터 kevin@between.us, kevinkim@apache.org powered by

2. 3개월 전…

3. Apache Zeppelin • 데이터 분석가, 개발자들을 위한 웹기반 노트북, 시각화 툴 • Spark, SparkSQL의 결과를 바로 차트로 그릴 수 있음 • 2014년 12월에 Apache 소프트웨어 재단의 Incubating 프로젝트가 됨 • Apache Tajo, Apache Flink 등 다양한 엔진을 결합 시도

5. 기존의 Workﬂow 데이터 저장 데이터 정제, 처리 요약 데이터 시각화 고급 분석 • 다양한 제품을 조합하여 데이터 분석을 하는것이 일반적 • 많은 엔지니어링이 필요함 • 다방면에 경험 많은 분석가들 혹은 팀의 전유물 • 파이프라인이 복잡하기에, 고장나기 쉽고 유지보수 어려움

6. 새로운 Workﬂow 데이터 저장 데이터 정제, 처리 요약 데이터 시각화 고급 분석 데이터 정제, 처리, 요약 데이터 시각화, 고급 분석까지 전부 Spark과 Zeppelin으로 해결

7. Notebook • 소스코드 작성, 수정, 자동저장, 실행 • Scala (Spark), Spark SQL, Markdown 등 지원

8. Notebook (2) • Paragraph들의 실행 상태를 컨트롤 • Paragraph들의 모양 및 위치 조정, 제목 표시 등 편집 가능

9. Notebook (3) • 여러개의 노트북을 생성, 목록으로 관리 가능 • 분석 작업 코드 및 결과물을 효율적으로 관리

10. Visualization • Spark SQL 수행 결과를 Table, Line Chart, Pie Chart 등 다양한 형태로 시각화 • Spark의 좋은 성능 덕분에 대부분 코드가 즉시 실행되므로 interactive 하게 데이 터를 다룰 수 있게 됨

11. Visualization (2) • HTML을 표현 가능하므로, 테이블에 이미지를 표시하거나, link를 넣거나 하는 등의 동작이 가능 • SparkSQL의 간편한 UDF(User Deﬁned Function) 등록 기능과 결합하면 편리함

12. Dashboard • Default, Simple, Report 뷰 모드를 제공함 • 코드를 가려주는 Report 뷰 모드를 활용하면 Dashboard를 빠르게 만들수 있음 • 코드와 차트들이 한군데 있으므로 손쉽게 페이지를 새로 만들고, 유지 관리 가능

13. Dashboard (2) • 자체적으로 Schedule 기능 내장 • 매일 혹은 매 시간 업데이트 되는 Dashboard나, Batch작업을 관리하기 용이함

14. Live Demo

15. Zeppelin을 추천합니다 • 간단하게 데이터 분석을 시작해보려는 사람 • Spark을 처음 시작하려는 사람 • Dashboard를 빠르게 만들고 싶은 사람 • 민첩하게 이런저런 데이터를 살펴보고 분석하는 작업 • 오픈소스 프로젝트에 참여해보고 싶은 사람

16. 감사합니다