ADD2010: Обработка большого объема данных на платформеApache Hadoop

Apache HadoopПлатформа
Примеры использования

Summary
• Актуальность обработки большого объема данных
• Distributed File System, MapReduce
• Apache Hadoop
• : Pig,Apache HiveСмежные технологии
• Column Oriented Database

Объемы данных
• Facebook: 20Tb сжатых данных в
день
• - : 1TbНью Йоркская биржа в день
• :Большой андронный коллайдер
40Tb в день
• ContextWeb (online advertising): 115Gb
в день

DFS/MapReduce
• 1: ?Проблема где хранить данные
• 2: ?Проблема как обрабатывать
• 2003: Google File SystemОктябрь появление
• 2004: MapReduceДекабрь появление

Distributed FS
• FSТребования к распределенной
• Хранить файлы любого размера
• Мягкое масштабирование
• Надежность

DFS: архитектура
• Данные разбиываются на
(64mb)блоки
• Чтение идет напрямую из
slave nodes
• Репликация

Конфигурация
• 40 nodes
• 4Tb/8Gb RAM/4x Xeon per node
• 40*4/2=80Tb общий объем хранилища

MapReduce
• Map: input record (key, value)⇒
• Reduce: (key, {v1, ..., vn}) output record⇒
• Данная парадигма пременима к широкому спектру
задач

Пример
• (Facebook)Как посчитать статистику по браузерам
• Map: log record (Browser, 1)⇒
• Reduce: (Browser, [1, .., 1]) {Browser, sum}⇒

Apache Hadoop
• 2004: Nutch - open source search engine
• 2006: Hadoop - отдельный проект
• 2006:Yahoo - research cluster
• 2008:Yahoo WebSearch Hadoop.использует Размер
- 4000кластера машин
• 2009 Hadoop выигрывает соревнование по
100Tb ( Yahoo). 4000 , 173сортировке на кластере машин
секунды

M Hadoopодули
• HDFS: Hadoop distributed file system
• MapReduce

Yahoo: web graph
• Map: page (Target URL, {sourceURL, link text})⇒
• Reduce: {Target URL, SourceURL, Link Text}
Target URL SourceURL Text
hadoop.apache.org reddit.com MapReduce OpenSource
hadoop.apache.org wikipedia.org/MapReduce MapReduce OpenSource
hadoop.apache.org sun.java.com MapReduce

Last.fm
• Пользователь слушает песню
• HDFS:Информация о прослушивании записывается в
{user, band, track} ( log- )строчка в файле
• Map: {userId, band, track} (user_band, 1)⇒
• Reduce (user_band, [1, ... , 1]) (user_band, sum)⇒

SQL
• SELECT f1, f2, sum(a)WHERE expr GROUP BY f1, f2
• Map: line ({f1, f2}, a) if expr⇒
• Reduce: ({f1, f2}, [a1, ..., an]) ({f1, f2}, sum)⇒

SQL: Принцип
• GROUP BY: Mapкак ключ в
• WHERE: Mapвычисляется в фазе
• SUM/AVG Mapкак значение в
• SUM/AVG: окончательное значение вычисляется в
Reduce
• JOIN: Reduce Mapили
• HAVING: как фильтрация в окончательной фазе
Reduce

SQL: partitioning
• WHERE: для ключевых полей имеет смысл делать
partitioning
• partitioningВ случае анализа исторических обычно
делается по дате
• WHERE,Часть условия имеющее отношение к дате
вычисляется до запуска и ограничивает объем
входных данных

Apache Hive
• Apache HadoopФреймворк на базе
• SQL MapReduce jobsТранслирует запросы в
• R&DИспользуется как основной инструмент в
Facebook

Apache Pig
• Researchers Javaне привыкли писать на
• Java: 3 , 200Аналог данного скрипта да класса строк

Области применения
• Research: ,как фронтенд для людей занимающихся
исследованием данных
• Data mining: построение моделей для дальнейшего
Real Timeиспользования
• Reporting: построение отчетов

Достоинства
• : 2Гладкая масштабируемость для х
2xпроизвоительности досточно оборудования
( )почти
• softwareНулевая стоимость
• on-demand Amazon Cloud ServiceДоступность как —
researchудобно для задач

Недостатки
• Высокая стоимость поддержки и администрирования
• SQL,В отличие от необходим штат
Java-developer’квалифицированных ов
• Нестабильность
• ,Низкая скорость
• real-timeНе

Real-Time?
• Окончательный результат можно загружать в
SQL/MemCache
• , SQL/MemCacheОднако не будет работать если
, Real-Timeобъем данных к которому необходим
доступ остается большим
• : column oriented database (HBase)Другое решение

Column oriented databases
• SQL-В подходе хранения данных есть определенные
проблемы
• ,Данные должны быть хорошо структурированы
ALTERTABLE - “ ”дорогая операция
• Структурированность данных в многих случаях
. , ,является плюсом Но когда она не нужна можно
хранить данные более эффективно

BigTable
• Google 2004-Дизайн представлен компанией в ом
году
• 1:Принцип на всю таблицу есть одно индексное поле
row key ( primary key)называемое аналог
• 2:Принцип данные во всех остальных полях не
.индексируются Таблица может иметь сколько угодно
, —полей добавление нового поля затрагивает
row.только отдельные

BigTable
• Удобнее представлять хранилище не как таблицу
• : (row key, column name) valueА как соответствие ⇒
• Так же во многих реализациях данные имеют
версионность по времени
• (row key, column name, timestamp) value⇒

BigTable: пример
• :Задача хранить информацию о посетителях сайта
• : CookieПростое решение
• : CookieНедостаток размер ограничен
• BigTable: (UserUID, )поле ⇒ значение
• Cookie UserUIDВ хранится только
• : ,Возможные поля дата последнего визита история
, .посещений история показа рекламных объявлений
Новое поле добавить очень легко

BigTable: дизайн
• Row keys ,сортируются данные храняться на кластере
• (region server)Каждый сервер хранит определенный
диапазон ключей
• master nodeКлиент обращается к и определяет на
каком сервере лежат интересующие его данные
• region serverЧтение идет напрямую с

HBase
• e Apache HadoopПостроен на платформ
• HDFSДля хранения данных используется
• Map Reduce процессы могут быть использованы для
загрузки большого объма данных
• ReduceНа этапе выполняется загрузка данных в
таблицу
• Reduce процесс выполняется на соответствующем
region server — происходит исключительно локальная
запись данный

HBase: производительность
• 7 server cluster (16Gb RAM, 8x core CPU, 10K RPM HD)
• 3 rows, 1 5Таблица из миллиардов от до колонок
• row — 300Размер каждого около байт
• 300 параллельных запросов
• : 18ms — , 8ms —Средние чтение запись

HBase: недостатки
• 1%Около процента запросов работают сильно
( 300ms)больше среднего порядка
• Возможность индексировать только по одному полю
(row key)
• :Нестабильность в последней самой
производительной версии возможна потеря данных

Hadoop: области
использования
• MapReduce — ,там где некритична скорость
: - ,получения результата обработка лог файлов
,построение стаитстических моделей построение
, researchиндексов
• HBase — ,там где некритична небольшая потеря
данных и не обязательно гарантированое время
( ,ответа например хранение информации о
online advertising)пользователе в

Где не стоит использовать
Hadoop
• Точные вычисления
• Биллинг
• Трейдинг
• Банковские операции

!Спасибо за внимание

ADD2010: Обработка большого объема данных на платформеApache Hadoop

Recommended

Recommended

More Related Content

What's hot

What's hot (19)

Viewers also liked

Viewers also liked (19)

Similar to ADD2010: Обработка большого объема данных на платформеApache Hadoop

Similar to ADD2010: Обработка большого объема данных на платформеApache Hadoop (20)

ADD2010: Обработка большого объема данных на платформеApache Hadoop