Spark overview (18.06.2015)

1 © 2015 IBM Corporation
Всеволод Грабельников, in/vsgrab
Андрей Орлов, in/andreyorlov

© 2015 IBM Corporation
Введение в Apache Spark
Всеволод Грабельников (vgrabeln@ru.ibm.com)

Предисловие
MPP
Spark
DBMS
Flink
 Spark это shared nothing MPP движок реализующий
архитектурные концепций, которые были ранее реализованы в
параллельных СУБД (DB2 DPF, Teradata, Netezza и.т.п.)
DB2
DataFlow
Netezza

Предисловие
 Основная польза от Spark:
– Точно так же, как в конце 70-х СУБД (и MPP СУБД)
облегчили написание, а главное выполнение запросов,
Spark позволяет разработчикам и аналитикам
упростить написание приложений для распределенной
обработки данных
• Разработка приложений происходит на «более высоком»
уровне абстракции, благодаря RDD (Resilent Distributed Dataset)
• Система заботится о производительности
 Эффективно использует память (Bufferpools, Кеширование RDD в
памяти)
 Управляет подчиненными процессами-агентами (subagents in
DBMS, Executors in Spark)
• Позволяет выполнять интерактивные запросы (spark-shell)
– Поддерживает различные нагрузки (SQL, Streaming,
Machine Learning, Работа с графами)

Кое-что о развитии Spark

 Apache Spark – система для обработки больших данных
– Скорость
• Использует распределенный in-memory
кэш
• Быстрее чем Map-Reduce
– Система общего назначения
• Позволяет обрабатывать разные задачи
• SQL, streaming (потоки),
сложная аналитика, графы
– Гибче и проще чем Map Reduce
• Spark написан на Scala
• Scala, Python и Java APIs
• Scala и Python интерактивные оболочки
• Работает на Hadoop, Mesos, автономно и
в облаке
Логистическая регрессия на Hadoop и Spark
from http://spark.apache.org

Коротко об истории Spark
 2002 – MapReduce @ Google
 2004 – MapReduce paper
 2006 – Hadoop @ Yahoo
 2008 – Hadoop Summit
 2010 – Spark paper
 2014 – Apache Spark top-level
 2014 – 1.2.0 release in December
 2015 – 1.3.0 release in March
 Spark популярен!!!
 Самый активный проект среди
Hadoop - экосистемы
 Один из 3 наиболее активных
проектов Apache
 Databricks - компания,
основанная создателями
Spark работавшими в UC
Berkeley AMPLab
Activity for 6 months in 2014
(from Matei Zaharia – 2014 Spark Summit)

Spark в экосистеме Hadoop
 На текущий момент SPARK - подсистема, которая интегрируется
с YARN (управляет ресурсами кластера) вместе с другими
подсистемами
YARN
HDFS
Map/
Reduce 2
Hive Pig SparkHbase BigSQL Impala
Slider Llama

Spark в экосистеме Hadoop
 Spark достаточно универсален и гибок:
– Работает поверх YARN / HDFS, автономно и с MESOS
– Способен обрабатывать разные задачи:SQL, streaming (потоки),
машинное обучение и сложная аналитика, графы

Spark: немного деталей

Схема работы Spark
SparkContext
Driver Program
Cluster Manager
Worker Node
Executor
Task Task
Cache
Worker Node
Executor
Task Task
Cache
App
 Каждое приложение на Spark выполняется как набор процессов,
координируемый Spark context object (driver program)
– Spark context соединяется с Cluster Manager (автономным, Mesos/Yarn)
– Spark context получает executor (JVM instance)
на рабочих узлах (worker node)
– Spark context посылает задания для executor’ов

 RDDs неизменяемы
– Модификации создают новые RDDs
 Содержит ссылки на партиционированные объекты
 Каждая партиция (=секция) - подмножество общих данных
 Секции назначаются
узлам в кластере
 Секции находятся в
памяти (по-умолчанию)
 RDDs помнят свою
«родословную»
Resilient Distributed Dataset (RDD)
Partition
Memory
partition
Partition
Partition
Partition
Memory
partition
Memory
partition
Memory
partition
RDD
Array

Spark Programming Model
 Операции с RDDs (datasets)
– Transformation
– Action
 Трансформации используют lazy evaluation
– Выполняется только в тот момент, когда операция с типом Action в этом
нуждается
 Приложение состоит из ориентированного ациклического графа
(directed acyclic graph = DAG)
– Каждый action превращается в отдельный JOB
– Параллелизм определяется числом RDD секций
RDD1 RDD2 RDD3
Act1
Act2
Job-1
Job-2

Spark Shells
 Большим преимуществом Spark является возможность
интерактивного анализа с помощью специальных оболочек.
– Аналог в СУБД: SQL*Plus (Oracle), sqlcmd (MS SQL), nzsql (Netezza).
– Spark поддерживает интерактивные оболочки Scala и Python shell
<Scala
Python>

Code Execution (1)
// Create RDD
val quotes =
sc.textFile("hdfs:/sparkdata/sparkQuotes.txt")
// Transformations
val danQuotes = quotes.filter(_.startsWith("DAN"))
val danSpark = danQuotes.map(_.split(" ")).map(x =>
x(1))
// Action
danSpark.filter(_.contains("Spark")).count()
DAN Spark is cool
BOB Spark is fun
BRIAN Spark is great
DAN Scala is awesome
BOB Scala is flexible
File: sparkQuotes.txt
 ‘spark-shell’ provides Spark context as ‘sc’

Code Execution (2)
// Create RDD
val quotes =
// Transformations
x(1))
// Action
DAN Spark is cool
BOB Spark is fun
File: sparkQuotes.txt RDD: quotes

Code Execution (3)
// Create RDD
val quotes =
// Transformations
x(1))
// Action
DAN Spark is cool
BOB Spark is fun
File: sparkQuotes.txt RDD: quotes RDD: danQuotes

Code Execution (4)
// Create RDD
val quotes =
// Transformations
x(1))
// Action
DAN Spark is cool
BOB Spark is fun
File: sparkQuotes.txt RDD: quotes RDD: danQuotes RDD: danSpark

Code Execution (5)
// Create RDD
val quotes =
// Transformations
x(1))
// Action
DAN Spark is cool
BOB Spark is fun
File: sparkQuotes.txt
HadoopRDD
DAN Spark is cool
BOB Spark is fun
RDD: quotes
DAN Spark is cool
RDD: danQuotes
Spark
Scala
RDD: danSpark
1

Direct Acyclic Graph (DAG)
 Посмотрим «план запроса»
 Или перепишем в 1 строку
scala> danSpark.toDebugString
res1: String =
(2) MappedRDD[4] at map at <console>:16
| MappedRDD[3] at map at <console>:16
| FilteredRDD[2] at filter at <console>:14
| hdfs:/sparkdata/sparkQuotes.txt MappedRDD[1] at textFile at <console>:12
| hdfs:/sparkdata/sparkQuotes.txt HadoopRDD[0] at textFile at <console>:12
val danSpark = sc.textFile("hdfs:/sparkdata/sparkQuotes.txt").
filter(_.startsWith("DAN")).
map(_.split(" ")).
map(x => x(1)).
.filter(_.contains("Spark"))
danSpark.count()

SparkSQL

IBM анонсирует свою стратегию
по интеграции приложений и
улучшению Apache® Spark™
Наиболее важный Open Source проект с точки зрения IBM

Передача в Open Source SystemML
Обучение 1 Миллион Data Professionals
Открываем Spark Technology Center ~ 300 разработчиков
Основатель и спонсор AMPLab
Коммиты в Ядро проекта
Анонс IBM

SystemML – набор параллельных алгоритмов
Позволяет создавать свои собственные алгоритмы
Помогает data scientist сосредоточиться на написании алгоритма, а
не его имплементации
Ускоряет достижение результата для аналитиков
Передача SystemML в open source

Big Data University MOOC
Spark Fundamentals I and II
Advanced Spark Development series
Foundational Methodology for Data Science
Партнерство с Databricks, AMPLab, DataCamp и MetiStream
Курсы для обучения Data
Scientists и Data Engineers

Помощь заказчикам в адаптации технологий на основе Spark
Коммиты в проект
Создание обучающих курсов
Развитиеинтеграции продуктов IBM со Spark
Центр технологий Spark

Экосистема партнеров

Spark и платформа для аналитики IBM
Spark
Discovery &
Exploration
Content
Analytics
Prescriptive
Analytics
Streaming
Analytics
Business Intelligence & Predictive Analytics
Data
Management
Content
Management
Hadoop
Systems
Data
Warehousing
Information Integration & Governance
Apache Spark as a Service on IBM Bluemix (beta)
IBM Open Platform with Apache Hadoop может
использовать Spark как альтернативу MapReduce;
поддерживает все компоненты Apache Spark
Модули IBM BigInsights будут поддерживать Spark
Интеграция Spark моделей в IBM Streams
Java Code написанный для Spark работает в IBM Streams
Spark & IBM Streams могут работать на 1 кластере
Hadoop Systems
Streaming Analytics

Сейчас
IBM Open Platform with Apache
Hadoop
IBM InfoSphere Streams
IBM Platform Computing
Использование Spark в IBM
Планы на текущий год
Apache Spark as a Service on IBM Bluemix (in beta)
IBM Watson Analytics
SPSS Modeler & Analytics Server
IBM DataWorks
IBM PureData Systems (Netezza) with Fluid Query
IBM Commerce

Discover Сайт IBM Big Data Hub хаб новостей про большие данные
Learn Курс “Spark Fundamentals” в Big Data University
Try Spark Бета-программа Spark в облаке IBM Bluemix www.spark.tc/beta
Try Spark with Hadoop Скачать Hadoop IBM.com/Hadoop
Engage IBM Spark Technology Center www.spark.tc
Converse #SparkInsight
Напоследок:

Spark overview (18.06.2015)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (10)

Similaire à Spark overview (18.06.2015)

Similaire à Spark overview (18.06.2015) (20)

Spark overview (18.06.2015)