2. Факты о Максимайзере
MVT, персонализация, сегментация, Web
аналитика.
1-е место в Великобритании.
7 миллиардов HTTP запросов в месяц.
500 миллионов уникальных пользователей
в месяц.
3. Факты о Максимайзере
Экспоненциальный рост числа клиентов и
объемов данных.
300 ms SLA на время ответа HTTP
сервера.
Десятки серверов по всему миру.
Интерактивные Ad-Hoc репорты.
4. План доклада
• Что такое Big Data?
• Big Data: типы нагрузок.
• Big Data: архитектурные шаблоны.
• Практические советы.
5. Что такое Big Data?
90% всех данных создано в 2011-12гг
2,200,000 TB создается ежедневно
К 2015 будет
создано 8,000,000,000 TB = 8 ZB =
18,000,000 Библиотек Конгресса США
Увеличение IP трафика в 4 раза
8. Что такое Big Data
Уровень развития различных технологий
Big Data представлены в отчете Gartner
“Hype Cycle for Big Data 2012”
http://whatsthebigdata.com/2012/08/16/gartners
9. Big Data: slashdot эффект
Топ 1000 сайтов по объему трафика
http://www.google.com/adplanner/static/top1000/#
#1 Facebook – 380,000 rps
#2 Youtube – 38,000 rps
#29 LinkedIn – 965 rps
#84 Odnoklassniki.ru – 5000 rps
Будьте готовы к Slashdot/хабра эффекту!
17. Big Data: типы нагрузок
Запрос-ответ
Обработка потоков данных
Обработка графов
Иголка в стоге сена
Индексирование текста
Аналитические отчеты
Неструктурированные данные
18. Big Data: архитектурные
шаблоны.
Как хранить МНОГО данных?
Как их обрабатывать БЫСТРО?
Что ДЕЛАТЬ с собранными
данными?
20. Big Data: архитектурные
шаблоны.
LB+Shared Nothing Nodes
Примеры: stateless Web
farms, parallel processing,
distributed databases and
caches, DFSs, CDN.
Плюсы: простота
реализации, клиенты
знают только о LB, ноды
независимы.
Минусы: LB – узкое место
и точка отказа, привязка
пользователя к ноде с
данными.
21. Big Data: архитектурные
шаблоны.
LB + Stateless Nodes +
Scalable Storage
Examples: Web farms,
parallel processing.
Pros: бизнес логика
масштабируется
отдельно от данных,
минимум точек отказа
Cons: сессия
пользователя должна
храниться в
хранилище.
25. Big Data: архитектурные
шаблоны.
Data Distribution Service
Mission-critical, ultra low
latency, high bandwidth.
Pros: те же что у очереди
+ отсутствие
центрального брокера,
типизированные данные,
латентность
Cons:
специализированные
сетевые протоколы
26. Big Data: архитектурные
шаблоны.
Map Reduce
Используется на
большинстве крупных
сайтов для офлайн
обработки.
Pros: масштабируемость
Cons: латентность,
сложность алгоритмов,
поддержка кода
27. Big Data: архитектурные
шаблоны.
In memory обработка потока
данных
CEP, ESP – MS
StreamInsight, NEsper,
Storm.
Pros: Mapreduce в
реальном времени,
выявление патернов
Cons: ограниченное
временное окно
29. Big Data: архитектурные
шаблоны.
Content Delivery Network
(CDN)
Pros: разгрузка файл-
серверов, быстрый ответ
в любом регионе
Cons: стоимость,
публичный доступ к
файлу
30. Практические советы
• Проанализируй оси развития системы.
• Разделяй по компонентам с учетом осей.
• Избегай глобальной координации.
• Масштабируй конфигурирование системы.
• Стоимость с учетом масштаба.
• Планируй обновление “железа” на этапе
проектирования.
• Масштабируемость сети.