SlideShare a Scribd company logo
1 of 35
Apache HadoopПлатформа
Примеры использования
Summary
• Актуальность обработки большого объема данных
• Distributed File System, MapReduce
• Apache Hadoop
• : Pig,Apache HiveСмежные технологии
• Column Oriented Database
Объемы данных
• Facebook: 20Tb сжатых данных в
день
• - : 1TbНью Йоркская биржа в день
• :Большой андронный коллайдер
40Tb в день
• ContextWeb (online advertising): 115Gb
в день
DFS/MapReduce
• 1: ?Проблема где хранить данные
• 2: ?Проблема как обрабатывать
• 2003: Google File SystemОктябрь появление
• 2004: MapReduceДекабрь появление
Distributed FS
• FSТребования к распределенной
• Хранить файлы любого размера
• Мягкое масштабирование
• Надежность
DFS: архитектура
• Данные разбиываются на
(64mb)блоки
• Чтение идет напрямую из
slave nodes
• Репликация
Конфигурация
• 40 nodes
• 4Tb/8Gb RAM/4x Xeon per node
• 40*4/2=80Tb общий объем хранилища
MapReduce
• Map: input record (key, value)⇒
• Reduce: (key, {v1, ..., vn}) output record⇒
• Данная парадигма пременима к широкому спектру
задач
Пример
• (Facebook)Как посчитать статистику по браузерам
• Map: log record (Browser, 1)⇒
• Reduce: (Browser, [1, .., 1]) {Browser, sum}⇒
Параллельность
Apache Hadoop
• 2004: Nutch - open source search engine
• 2006: Hadoop - отдельный проект
• 2006:Yahoo - research cluster
• 2008:Yahoo WebSearch Hadoop.использует Размер
- 4000кластера машин
• 2009 Hadoop выигрывает соревнование по
100Tb ( Yahoo). 4000 , 173сортировке на кластере машин
секунды
M Hadoopодули
• HDFS: Hadoop distributed file system
• MapReduce
Yahoo: web graph
• Map: page (Target URL, {sourceURL, link text})⇒
• Reduce: {Target URL, SourceURL, Link Text}
Target URL SourceURL Text
hadoop.apache.org reddit.com MapReduce OpenSource
hadoop.apache.org wikipedia.org/MapReduce MapReduce OpenSource
hadoop.apache.org sun.java.com MapReduce
Last.fm
Last.fm
• Пользователь слушает песню
• HDFS:Информация о прослушивании записывается в
{user, band, track} ( log- )строчка в файле
• Map: {userId, band, track} (user_band, 1)⇒
• Reduce (user_band, [1, ... , 1]) (user_band, sum)⇒
SQL
• SELECT f1, f2, sum(a)WHERE expr GROUP BY f1, f2
• Map: line ({f1, f2}, a) if expr⇒
• Reduce: ({f1, f2}, [a1, ..., an]) ({f1, f2}, sum)⇒
SQL: Принцип
• GROUP BY: Mapкак ключ в
• WHERE: Mapвычисляется в фазе
• SUM/AVG Mapкак значение в
• SUM/AVG: окончательное значение вычисляется в
Reduce
• JOIN: Reduce Mapили
• HAVING: как фильтрация в окончательной фазе
Reduce
SQL: partitioning
• WHERE: для ключевых полей имеет смысл делать
partitioning
• partitioningВ случае анализа исторических обычно
делается по дате
• WHERE,Часть условия имеющее отношение к дате
вычисляется до запуска и ограничивает объем
входных данных
Apache Hive
• Apache HadoopФреймворк на базе
• SQL MapReduce jobsТранслирует запросы в
• R&DИспользуется как основной инструмент в
Facebook
Apache Pig
• Researchers Javaне привыкли писать на
• Java: 3 , 200Аналог данного скрипта да класса строк
Области применения
• Research: ,как фронтенд для людей занимающихся
исследованием данных
• Data mining: построение моделей для дальнейшего
Real Timeиспользования
• Reporting: построение отчетов
Достоинства
• : 2Гладкая масштабируемость для х
2xпроизвоительности досточно оборудования
( )почти
• softwareНулевая стоимость
• on-demand Amazon Cloud ServiceДоступность как —
researchудобно для задач
Недостатки
• Высокая стоимость поддержки и администрирования
• SQL,В отличие от необходим штат
Java-developer’квалифицированных ов
• Нестабильность
• ,Низкая скорость
• real-timeНе
Real-Time?
• Окончательный результат можно загружать в
SQL/MemCache
• , SQL/MemCacheОднако не будет работать если
, Real-Timeобъем данных к которому необходим
доступ остается большим
• : column oriented database (HBase)Другое решение
Column oriented databases
• SQL-В подходе хранения данных есть определенные
проблемы
• ,Данные должны быть хорошо структурированы
ALTERTABLE - “ ”дорогая операция
• Структурированность данных в многих случаях
. , ,является плюсом Но когда она не нужна можно
хранить данные более эффективно
BigTable
• Google 2004-Дизайн представлен компанией в ом
году
• 1:Принцип на всю таблицу есть одно индексное поле
row key ( primary key)называемое аналог
• 2:Принцип данные во всех остальных полях не
.индексируются Таблица может иметь сколько угодно
, —полей добавление нового поля затрагивает
row.только отдельные
BigTable
• Удобнее представлять хранилище не как таблицу
• : (row key, column name) valueА как соответствие ⇒
• Так же во многих реализациях данные имеют
версионность по времени
• (row key, column name, timestamp) value⇒
BigTable: пример
• :Задача хранить информацию о посетителях сайта
• : CookieПростое решение
• : CookieНедостаток размер ограничен
• BigTable: (UserUID, )поле ⇒ значение
• Cookie UserUIDВ хранится только
• : ,Возможные поля дата последнего визита история
, .посещений история показа рекламных объявлений
Новое поле добавить очень легко
BigTable: дизайн
• Row keys ,сортируются данные храняться на кластере
• (region server)Каждый сервер хранит определенный
диапазон ключей
• master nodeКлиент обращается к и определяет на
каком сервере лежат интересующие его данные
• region serverЧтение идет напрямую с
HBase
• e Apache HadoopПостроен на платформ
• HDFSДля хранения данных используется
• Map Reduce процессы могут быть использованы для
загрузки большого объма данных
• ReduceНа этапе выполняется загрузка данных в
таблицу
• Reduce процесс выполняется на соответствующем
region server — происходит исключительно локальная
запись данный
HBase: производительность
• 7 server cluster (16Gb RAM, 8x core CPU, 10K RPM HD)
• 3 rows, 1 5Таблица из миллиардов от до колонок
• row — 300Размер каждого около байт
• 300 параллельных запросов
• : 18ms — , 8ms —Средние чтение запись
HBase: недостатки
• 1%Около процента запросов работают сильно
( 300ms)больше среднего порядка
• Возможность индексировать только по одному полю
(row key)
• :Нестабильность в последней самой
производительной версии возможна потеря данных
Hadoop: области
использования
• MapReduce — ,там где некритична скорость
: - ,получения результата обработка лог файлов
,построение стаитстических моделей построение
, researchиндексов
• HBase — ,там где некритична небольшая потеря
данных и не обязательно гарантированое время
( ,ответа например хранение информации о
online advertising)пользователе в
Где не стоит использовать
Hadoop
• Точные вычисления
• Биллинг
• Трейдинг
• Банковские операции
!Спасибо за внимание

More Related Content

What's hot

Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиBadoo Development
 
Опыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхОпыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхVasil Remeniuk
 
Лекция 12. Spark
Лекция 12. SparkЛекция 12. Spark
Лекция 12. SparkTechnopark
 
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС2ГИС Технологии
 
Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache HadoopDotNetConf
 
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...CodeFest
 
С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo).
С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo). С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo).
С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo). Badoo Development
 
Cергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИСCергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИСOntico
 
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...HappyDev
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 20132ГИС Технологии
 
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...Ontico
 
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...Ontico
 
Pulsedb — система хранения временных рядов
Pulsedb — система хранения временных рядовPulsedb — система хранения временных рядов
Pulsedb — система хранения временных рядовMax Lapshin
 
Архитектура HAWQ / Алексей Грищенко (Pivotal)
Архитектура HAWQ / Алексей Грищенко (Pivotal)Архитектура HAWQ / Алексей Грищенко (Pivotal)
Архитектура HAWQ / Алексей Грищенко (Pivotal)Ontico
 
Lapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-baseLapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-basekuchinskaya
 
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...Ontico
 
«Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС
«Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС «Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС
«Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС 2ГИС Технологии
 
Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)
Путь от монолита на PHP к микросервисам на Scala  / Денис Иванов (2GIS)Путь от монолита на PHP к микросервисам на Scala  / Денис Иванов (2GIS)
Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)Ontico
 
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...Pavel Dovbush
 

What's hot (19)

Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитики
 
Опыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхОпыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событиях
 
Лекция 12. Spark
Лекция 12. SparkЛекция 12. Spark
Лекция 12. Spark
 
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
«Дорожная сеть в графовой базе данных Neo4j» — Вадим Шашенко, 2ГИС
 
Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache Hadoop
 
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
CodeFest 2014. Бартунов О. — Hstore — документо-ориентированное хранилище и д...
 
С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo).
С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo). С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo).
С чего начать внедрение Hadoop в компании. Доклад Алексея Еремихина (Badoo).
 
Cергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИСCергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИС
 
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
 
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
Lambda architecture для realtime-аналитики — риски и преимущества / Николай Г...
 
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
 
Pulsedb — система хранения временных рядов
Pulsedb — система хранения временных рядовPulsedb — система хранения временных рядов
Pulsedb — система хранения временных рядов
 
Архитектура HAWQ / Алексей Грищенко (Pivotal)
Архитектура HAWQ / Алексей Грищенко (Pivotal)Архитектура HAWQ / Алексей Грищенко (Pivotal)
Архитектура HAWQ / Алексей Грищенко (Pivotal)
 
Lapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-baseLapan 20.04 hadoop h-base
Lapan 20.04 hadoop h-base
 
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
Как мы храним и анализируем большой социальный граф, Максим Бартенев (Норси-т...
 
«Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС
«Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС «Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС
«Путь от монолита на PHP к микросервисам на Scala» – Денис Иванов, 2ГИС
 
Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)
Путь от монолита на PHP к микросервисам на Scala  / Денис Иванов (2GIS)Путь от монолита на PHP к микросервисам на Scala  / Денис Иванов (2GIS)
Путь от монолита на PHP к микросервисам на Scala / Денис Иванов (2GIS)
 
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
Эволюция клиентской разработки: от веба ко "всеобщей мобилизации” или mobile-...
 

Viewers also liked

Анатомия RTB / Владимир Климонтович
Анатомия RTB / Владимир КлимонтовичАнатомия RTB / Владимир Климонтович
Анатомия RTB / Владимир КлимонтовичOntico
 
Больше DMP, хороших и разных
Больше DMP, хороших и разныхБольше DMP, хороших и разных
Больше DMP, хороших и разныхHybridRussia
 
20121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof201220121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof2012Boris Omelnitskiy
 
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...rit2011
 
Обработка данных в RTB: быстро, дешево и на 98% точно
Обработка данных в RTB:  быстро, дешево и на 98% точноОбработка данных в RTB:  быстро, дешево и на 98% точно
Обработка данных в RTB: быстро, дешево и на 98% точноPavel Kalaidin
 
Александр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеАлександр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеAuditorius
 
Мифы об RTB и Programmatic
Мифы об RTB и ProgrammaticМифы об RTB и Programmatic
Мифы об RTB и ProgrammaticHUBRUS
 
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...solit
 
Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Marcus Tewksbury
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
Bluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBrian Crotty
 
Лекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceЛекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceTechnopark
 
Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Mutlu Dogus Yildirim
 
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...Karunakar Ravirala
 
Hadoop introduction , Why and What is Hadoop ?
Hadoop introduction , Why and What is  Hadoop ?Hadoop introduction , Why and What is  Hadoop ?
Hadoop introduction , Why and What is Hadoop ?sudhakara st
 
Hadoop Overview & Architecture
Hadoop Overview & Architecture  Hadoop Overview & Architecture
Hadoop Overview & Architecture EMC
 

Viewers also liked (19)

Rtb
RtbRtb
Rtb
 
Анатомия RTB / Владимир Климонтович
Анатомия RTB / Владимир КлимонтовичАнатомия RTB / Владимир Климонтович
Анатомия RTB / Владимир Климонтович
 
Data Mining in RTB
Data Mining in RTBData Mining in RTB
Data Mining in RTB
 
Больше DMP, хороших и разных
Больше DMP, хороших и разныхБольше DMP, хороших и разных
Больше DMP, хороших и разных
 
20121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof201220121129 boris omelnitskiy_i_prof2012
20121129 boris omelnitskiy_i_prof2012
 
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
Hadoop streaming простой путь к масштабированию приложений обработки данных. ...
 
Обработка данных в RTB: быстро, дешево и на 98% точно
Обработка данных в RTB:  быстро, дешево и на 98% точноОбработка данных в RTB:  быстро, дешево и на 98% точно
Обработка данных в RTB: быстро, дешево и на 98% точно
 
Apache Hadoop
Apache HadoopApache Hadoop
Apache Hadoop
 
Александр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламеАлександр Иванов. Programmatic: новая эра в digital-рекламе
Александр Иванов. Programmatic: новая эра в digital-рекламе
 
Мифы об RTB и Programmatic
Мифы об RTB и ProgrammaticМифы об RTB и Programmatic
Мифы об RTB и Programmatic
 
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
Solit 2014, MapReduce и машинное обучение на hadoop и mahout, Слисенко Конста...
 
Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)Dmp - cookie synching (11-15-11)
Dmp - cookie synching (11-15-11)
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
Bluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for PublishersBluekai: Data Management Platforms (dmp) for Publishers
Bluekai: Data Management Platforms (dmp) for Publishers
 
Лекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduceЛекция 1. Введение в Big Data и MapReduce
Лекция 1. Введение в Big Data и MapReduce
 
Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)Real time bidding (DSP, SSP, DMP, ATD, ITD)
Real time bidding (DSP, SSP, DMP, ATD, ITD)
 
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...All about Programmatic buying(RTB), DSP,SSP, DMP & DCT -  A complete digital ...
All about Programmatic buying(RTB), DSP,SSP, DMP & DCT - A complete digital ...
 
Hadoop introduction , Why and What is Hadoop ?
Hadoop introduction , Why and What is  Hadoop ?Hadoop introduction , Why and What is  Hadoop ?
Hadoop introduction , Why and What is Hadoop ?
 
Hadoop Overview & Architecture
Hadoop Overview & Architecture  Hadoop Overview & Architecture
Hadoop Overview & Architecture
 

Similar to ADD2010: Обработка большого объема данных на платформеApache Hadoop

12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...HappyDev-lite
 
Обзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий НасретдиновОбзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий НасретдиновOntico
 
С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)
С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)
С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)Ontico
 
кри 2014 elastic search рациональный подход к созданию собственной системы а...
кри 2014 elastic search  рациональный подход к созданию собственной системы а...кри 2014 elastic search  рациональный подход к созданию собственной системы а...
кри 2014 elastic search рациональный подход к созданию собственной системы а...Vyacheslav Nikulin
 
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...it-people
 
Frontera обход испанского интернета
Frontera обход испанского интернетаFrontera обход испанского интернета
Frontera обход испанского интернетаAlexander Sibiryakov
 
Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Alexey Zinoviev
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)Andrew Panfilov
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...Ontico
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Ontico
 
ekbpy'2012 - Данила Штань - Распределенное хранилище
ekbpy'2012 - Данила Штань - Распределенное хранилищеekbpy'2012 - Данила Штань - Распределенное хранилище
ekbpy'2012 - Данила Штань - Распределенное хранилищеit-people
 
Isilapp — Extreme Cloud Storage on FreeBSD
Isilapp — Extreme Cloud Storage on FreeBSDIsilapp — Extreme Cloud Storage on FreeBSD
Isilapp — Extreme Cloud Storage on FreeBSDAndrew Pantyukhin
 
Hosting for forbes.ru_
Hosting for forbes.ru_Hosting for forbes.ru_
Hosting for forbes.ru_drupalconf
 
Hadoop > cascading -> cascalog (short version)
Hadoop  > cascading -> cascalog (short version)Hadoop  > cascading -> cascalog (short version)
Hadoop > cascading -> cascalog (short version)Andrew Panfilov
 
Параллельные и распределенные вычисления
Параллельные и распределенные вычисленияПараллельные и распределенные вычисления
Параллельные и распределенные вычисленияMATLAB
 
Кластер БГУИР: расширенные возможности
Кластер БГУИР: расширенные возможностиКластер БГУИР: расширенные возможности
Кластер БГУИР: расширенные возможностиAlexey Demidchuk
 
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаковIBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаковMaxim Zinal
 

Similar to ADD2010: Обработка большого объема данных на платформеApache Hadoop (20)

Map reduce
Map reduceMap reduce
Map reduce
 
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
12 HappyDev-lite-2014. Иван Погудин, Анатолий Никулин. Решение задач, связан...
 
Обзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий НасретдиновОбзор перспективных баз данных для highload / Юрий Насретдинов
Обзор перспективных баз данных для highload / Юрий Насретдинов
 
С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)
С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)
С чего начать внедрение Hadoop в компании / Алексей Еремихин (Badoo)
 
кри 2014 elastic search рациональный подход к созданию собственной системы а...
кри 2014 elastic search  рациональный подход к созданию собственной системы а...кри 2014 elastic search  рациональный подход к созданию собственной системы а...
кри 2014 elastic search рациональный подход к созданию собственной системы а...
 
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
Frontera: распределенный робот для обхода интернета в больших объемах - Алекс...
 
Frontera обход испанского интернета
Frontera обход испанского интернетаFrontera обход испанского интернета
Frontera обход испанского интернета
 
Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15
 
Druid - Interactive Analytics At Scale
Druid - Interactive Analytics At ScaleDruid - Interactive Analytics At Scale
Druid - Interactive Analytics At Scale
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
Ускоряем и разгружаем веб-сервер, прозрачно кэшируя на SSD, Станислав Николов...
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
 
ekbpy'2012 - Данила Штань - Распределенное хранилище
ekbpy'2012 - Данила Штань - Распределенное хранилищеekbpy'2012 - Данила Штань - Распределенное хранилище
ekbpy'2012 - Данила Штань - Распределенное хранилище
 
Isilapp — Extreme Cloud Storage on FreeBSD
Isilapp — Extreme Cloud Storage on FreeBSDIsilapp — Extreme Cloud Storage on FreeBSD
Isilapp — Extreme Cloud Storage on FreeBSD
 
Hosting for forbes.ru_
Hosting for forbes.ru_Hosting for forbes.ru_
Hosting for forbes.ru_
 
Hadoop > cascading -> cascalog (short version)
Hadoop  > cascading -> cascalog (short version)Hadoop  > cascading -> cascalog (short version)
Hadoop > cascading -> cascalog (short version)
 
Параллельные и распределенные вычисления
Параллельные и распределенные вычисленияПараллельные и распределенные вычисления
Параллельные и распределенные вычисления
 
Кластер БГУИР: расширенные возможности
Кластер БГУИР: расширенные возможностиКластер БГУИР: расширенные возможности
Кластер БГУИР: расширенные возможности
 
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаковIBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
IBM Cloudant и Apache CouchDB: NoSQL базы данных эпохи облаков
 

ADD2010: Обработка большого объема данных на платформеApache Hadoop

  • 2. Summary • Актуальность обработки большого объема данных • Distributed File System, MapReduce • Apache Hadoop • : Pig,Apache HiveСмежные технологии • Column Oriented Database
  • 3. Объемы данных • Facebook: 20Tb сжатых данных в день • - : 1TbНью Йоркская биржа в день • :Большой андронный коллайдер 40Tb в день • ContextWeb (online advertising): 115Gb в день
  • 4. DFS/MapReduce • 1: ?Проблема где хранить данные • 2: ?Проблема как обрабатывать • 2003: Google File SystemОктябрь появление • 2004: MapReduceДекабрь появление
  • 5. Distributed FS • FSТребования к распределенной • Хранить файлы любого размера • Мягкое масштабирование • Надежность
  • 6. DFS: архитектура • Данные разбиываются на (64mb)блоки • Чтение идет напрямую из slave nodes • Репликация
  • 7. Конфигурация • 40 nodes • 4Tb/8Gb RAM/4x Xeon per node • 40*4/2=80Tb общий объем хранилища
  • 8. MapReduce • Map: input record (key, value)⇒ • Reduce: (key, {v1, ..., vn}) output record⇒ • Данная парадигма пременима к широкому спектру задач
  • 9. Пример • (Facebook)Как посчитать статистику по браузерам • Map: log record (Browser, 1)⇒ • Reduce: (Browser, [1, .., 1]) {Browser, sum}⇒
  • 11. Apache Hadoop • 2004: Nutch - open source search engine • 2006: Hadoop - отдельный проект • 2006:Yahoo - research cluster • 2008:Yahoo WebSearch Hadoop.использует Размер - 4000кластера машин • 2009 Hadoop выигрывает соревнование по 100Tb ( Yahoo). 4000 , 173сортировке на кластере машин секунды
  • 12. M Hadoopодули • HDFS: Hadoop distributed file system • MapReduce
  • 13. Yahoo: web graph • Map: page (Target URL, {sourceURL, link text})⇒ • Reduce: {Target URL, SourceURL, Link Text} Target URL SourceURL Text hadoop.apache.org reddit.com MapReduce OpenSource hadoop.apache.org wikipedia.org/MapReduce MapReduce OpenSource hadoop.apache.org sun.java.com MapReduce
  • 15. Last.fm • Пользователь слушает песню • HDFS:Информация о прослушивании записывается в {user, band, track} ( log- )строчка в файле • Map: {userId, band, track} (user_band, 1)⇒ • Reduce (user_band, [1, ... , 1]) (user_band, sum)⇒
  • 16. SQL • SELECT f1, f2, sum(a)WHERE expr GROUP BY f1, f2 • Map: line ({f1, f2}, a) if expr⇒ • Reduce: ({f1, f2}, [a1, ..., an]) ({f1, f2}, sum)⇒
  • 17. SQL: Принцип • GROUP BY: Mapкак ключ в • WHERE: Mapвычисляется в фазе • SUM/AVG Mapкак значение в • SUM/AVG: окончательное значение вычисляется в Reduce • JOIN: Reduce Mapили • HAVING: как фильтрация в окончательной фазе Reduce
  • 18. SQL: partitioning • WHERE: для ключевых полей имеет смысл делать partitioning • partitioningВ случае анализа исторических обычно делается по дате • WHERE,Часть условия имеющее отношение к дате вычисляется до запуска и ограничивает объем входных данных
  • 19. Apache Hive • Apache HadoopФреймворк на базе • SQL MapReduce jobsТранслирует запросы в • R&DИспользуется как основной инструмент в Facebook
  • 20. Apache Pig • Researchers Javaне привыкли писать на • Java: 3 , 200Аналог данного скрипта да класса строк
  • 21. Области применения • Research: ,как фронтенд для людей занимающихся исследованием данных • Data mining: построение моделей для дальнейшего Real Timeиспользования • Reporting: построение отчетов
  • 22. Достоинства • : 2Гладкая масштабируемость для х 2xпроизвоительности досточно оборудования ( )почти • softwareНулевая стоимость • on-demand Amazon Cloud ServiceДоступность как — researchудобно для задач
  • 23. Недостатки • Высокая стоимость поддержки и администрирования • SQL,В отличие от необходим штат Java-developer’квалифицированных ов • Нестабильность • ,Низкая скорость • real-timeНе
  • 24. Real-Time? • Окончательный результат можно загружать в SQL/MemCache • , SQL/MemCacheОднако не будет работать если , Real-Timeобъем данных к которому необходим доступ остается большим • : column oriented database (HBase)Другое решение
  • 25. Column oriented databases • SQL-В подходе хранения данных есть определенные проблемы • ,Данные должны быть хорошо структурированы ALTERTABLE - “ ”дорогая операция • Структурированность данных в многих случаях . , ,является плюсом Но когда она не нужна можно хранить данные более эффективно
  • 26. BigTable • Google 2004-Дизайн представлен компанией в ом году • 1:Принцип на всю таблицу есть одно индексное поле row key ( primary key)называемое аналог • 2:Принцип данные во всех остальных полях не .индексируются Таблица может иметь сколько угодно , —полей добавление нового поля затрагивает row.только отдельные
  • 27. BigTable • Удобнее представлять хранилище не как таблицу • : (row key, column name) valueА как соответствие ⇒ • Так же во многих реализациях данные имеют версионность по времени • (row key, column name, timestamp) value⇒
  • 28. BigTable: пример • :Задача хранить информацию о посетителях сайта • : CookieПростое решение • : CookieНедостаток размер ограничен • BigTable: (UserUID, )поле ⇒ значение • Cookie UserUIDВ хранится только • : ,Возможные поля дата последнего визита история , .посещений история показа рекламных объявлений Новое поле добавить очень легко
  • 29. BigTable: дизайн • Row keys ,сортируются данные храняться на кластере • (region server)Каждый сервер хранит определенный диапазон ключей • master nodeКлиент обращается к и определяет на каком сервере лежат интересующие его данные • region serverЧтение идет напрямую с
  • 30. HBase • e Apache HadoopПостроен на платформ • HDFSДля хранения данных используется • Map Reduce процессы могут быть использованы для загрузки большого объма данных • ReduceНа этапе выполняется загрузка данных в таблицу • Reduce процесс выполняется на соответствующем region server — происходит исключительно локальная запись данный
  • 31. HBase: производительность • 7 server cluster (16Gb RAM, 8x core CPU, 10K RPM HD) • 3 rows, 1 5Таблица из миллиардов от до колонок • row — 300Размер каждого около байт • 300 параллельных запросов • : 18ms — , 8ms —Средние чтение запись
  • 32. HBase: недостатки • 1%Около процента запросов работают сильно ( 300ms)больше среднего порядка • Возможность индексировать только по одному полю (row key) • :Нестабильность в последней самой производительной версии возможна потеря данных
  • 33. Hadoop: области использования • MapReduce — ,там где некритична скорость : - ,получения результата обработка лог файлов ,построение стаитстических моделей построение , researchиндексов • HBase — ,там где некритична небольшая потеря данных и не обязательно гарантированое время ( ,ответа например хранение информации о online advertising)пользователе в
  • 34. Где не стоит использовать Hadoop • Точные вычисления • Биллинг • Трейдинг • Банковские операции