Этот момент обязательно наступит, если ваш проект, ваш бизнес сделаны не для того, чтобы вспыхнуть Фениксом в пламени бюджетов. Его важно не пропустить и начать обряд масштабирования как можно раньше.
Однако, не для каждой ситуации может подойти простое натравливание Hadoop на ваши логи, перелив данных из PostgreSQL в Cassandra или беспощадный тюнинг nginx и JVM.
Всегда стоит идти от задач, от представления о системе аналитики или от определенного заранее уровня отзывчивости системы. В этом докладе я хотел бы сосредоточиться не на инструментарии, столь важном для разработчика, а, напротив, поговорить о различных типах вопросов и болей с которыми приходят к нам заказчики в реальном мире, где никому нет дела до ваших результатов на Kaggle (онлайн-олимпиада по анализу данных) и синтетических тестов производительности, а также о процессе поиска ответов на эти вопросы. В реальном мире конечная идея приложения может измениться до неузнаваемости в один момент.
Приходите, разберем как хорошие случаи, так и типичные ошибки в построении приложений.
Для кого хорошо подойдет данный доклад: для тех, кто не слишком знаком с концепцией BigData, либо хорошо знаком с инструментарием разработчика, но нет определенной ясности в том, а для чего все это нужно. Ну и если вы идете на мастер-класс, то заходите, лишним не будет.
10. Мы стали хранить и анализировать
то, что раньше казалось ерундой
11. BigData – это..
• Работа с объемом данных, которые не влезает в
один Excel – файл?
12. BigData – это..
• Работа с объемом данных, которые не влезает в
один Excel – файл?
• Способ продать клиенту старые тряпки в новой
упаковке?
13. BigData – это..
• Работа с объемом данных, которые не влезает в
один Excel – файл?
• Способ продать клиенту старые тряпки в новой
упаковке?
• Спасительное средство, когда MySQL для моего
сайта тормозит?
14. BigData – это..
• Работа с объемом данных, которые не влезает в
один Excel – файл?
• Способ продать клиенту старые тряпки в новой
упаковке?
• Спасительное средство, когда MySQL для моего
сайта тормозит?
• Совокупность методологий и технологий
построения систем, хранилищ и средств анализа
данных с высокой степенью горизонтального
масштабирования и «стрессоустойчивостью»?
15. У меня 1 млн записей в MySQL. Это
уже BigData?
16. У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?
17. У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?
• Зачем тюнить если есть Hadoop и Amazon?
18. У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?
• Зачем тюнить если есть Hadoop и Amazon?
• А вы знаете сколько стоит Amazon?
19. У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?
• Зачем тюнить если есть Hadoop и Amazon?
• А вы знаете сколько стоит Amazon?
• А у вас есть статистика по запросам?
20. У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?
• Зачем тюнить если есть Hadoop и Amazon?
• А вы знаете сколько стоит Amazon?
• А у вас есть статистика по запросам?
• А вы профилировали хоть раз?
21. У вас была SQL БД с медленными
запросами?
• А не пойти ли вам потюнить?
• Зачем тюнить если есть Hadoop и Amazon?
• А вы знаете сколько стоит Amazon?
• А у вас есть статистика по запросам?
• А вы профилировали хоть раз?
• А какой прогноз по объему данных на
ближайший год?
24. Типичный EPAM BigData кластер
• 450 машин
• Master Nodes (24 ядра, 158 Gb RAM).
• Data Nodes (24|32 ядра, 96|128 Gb RAM).
• Средняя YARN Queue utilization 85% (по
дням).
• 12Pb – емкость хранения данных
25. Биг дата – это когда что-то
невероятно большое, да?
26. Нет, дело не только в размере
• У нас становится просто больше типов и
моделей данных, в том числе скрытых от нас
• Нам нужно так быстро обрабатывать
входящие данные, что через парус секунд
они станут никому не нужны и могут быть
просто удалены
• И да, нам иногда нужно что-то сложнее чем
отчет по остаткам на складах
27. Это просто данные, которые на
данный момент сложно …
• Хранить
• Обрабатывать
• Искать в них что-то
• Анализировать
• Передавать по сети
• Визуализировать
29. Parallel Computin vs
Distributed Computing
• Можно запустить на 1000 ядерной машине
• Но тогда нам нужен суперкомпьютер
• А можно каждой маленькой машинке
считать, хранить и обрабатывать свою
порцию данных отдельно!
• Круто, а кто писать будет всю
инфраструктуру?
39. Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем
• Непрерывная интеграция всего хозяйства
• Плавность смены версий в вашем ToolBox
• Батюшка – деплой
• Матушка – ошибки в логах
40. Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем
• Непрерывная интеграция всего хозяйства
• Плавность смены версий в вашем ToolBox
• Батюшка – деплой
• Матушка – ошибки в логах
• 24*7 выход чего-то из строя
41. Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем
• Непрерывная интеграция всего хозяйства
• Плавность смены версий в вашем ToolBox
• Батюшка – деплой
• Матушка – ошибки в логах
• 24*7 выход чего-то из строя
• Ну или кредитка для Amazon ^__^
42. Инфраструктурные задачи
• Настройка/оптимизация SQL/NoSQL – систем
• Непрерывная интеграция всего хозяйства
• Плавность смены версий в вашем ToolBox
• Батюшка – деплой
• Матушка – ошибки в логах
• 24*7 выход чего-то из строя
• Ну или кредитка для Amazon ^__^
43. Если вы умеете извлекать
интересные факты из своих данных,
то за вами придут
48. Специалисты
• Бывший backend – разработчик как личинка
Hadoop/Spark девелопера
• Бывший сисадмин как личинка
DevOps/Infrastrucure Specialist
49. Специалисты
• Бывший backend – разработчик как личинка
Hadoop/Spark девелопера
• Бывший сисадмин как личинка
DevOps/Infrastrucure Specialist
• Быший 1С-ник как BI/Data Warehouse
Specialist
50. Специалисты
• Бывший backend – разработчик как личинка
Hadoop/Spark девелопера
• Бывший сисадмин как личинка
DevOps/Infrastrucure Specialist
• Быший 1С-ник как BI/Data Warehouse
Specialist
• Бывший математик как Data Scientist
51. Специалисты
• Бывший backend – разработчик как личинка
Hadoop/Spark девелопера
• Бывший сисадмин как личинка
DevOps/Infrastrucure Specialist
• Быший 1С-ник как BI/Data Warehouse
Specialist
• Бывший математик как Data Scientist
• … ну и менеджер, с техническим
бэкгранудом
53. Есть что спросить/рассказать?
• https://twitter.com/zaleslaw
• https://twitter.com/BigDataRussia
• http://vk.com/big_data_russia Big Data Russia
• http://vk.com/java_jvm