High load++2016.highlights (dropbox+clickhouse)

Highload++2016highlight
Особенности архитектуры распределённого хранилища в Dropbox
+
ClickHouse: очень быстро и очень удобно <=> Переезжаем на Yandex ClickHouse
© Pavel Alexeev, 2016 1

Disclaimer
Информация и часть слайдов заимствованы из оригинальных презентаций:
● Особенности архитектуры распределённого хранилища в Dropbox - Слава
Бахмутов (SRE в группе разработки стораджа в Dropbox)
● ClickHouse: очень быстро и очень удобно - Виктор Тарнавский
(Руководитель разработки аналитических продуктов в Яндексе), Алексей
Миловидов (Главный разработчик ClickHouse)
● Переезжаем на Yandex ClickHouse - Александр Зайцев (LifeStreet)
2

3
Dropbox:
Isolation+Verification+Automatization
=Availability

6
Надёжность оборудования - миф

7
Составные доступности

8
Физическая изоляция

9
Логическая изоляция

10
Эксплуатационная изоляция

11
Защита
● Валидация операций
○ Оператор не виноват. Если что-то может быть поломано - оно будет поломано
○ Команды проще
○ Однозначный синтаксис
● Восстановление
○ Многое можно восстановить автоматически
● Тестирование
○ Тестировать стоит ПО, процедуры и даже тестирование
● Всегда что-то может пойти не так
○ Необходимо определять что именно и где

14
Автоматизация
Параноидальная автоматизация

18
Другие решения

19
YandexClickHouse
Vendorview

20
Яндекс.Метрика

21
Хранение данных
Классический подход
● Агрегированные данные
● Нормализация
● Множество таблиц
● Key -> Metrics
Современный подход
● Сырые данные
● Небольшое количество широких таблиц
● Огромное количество фильтров и группировок
● Event -> Properties

22
Основные идеи создания
➔ SQL диалект
➔ Линейная масштабируемость
➔ Фокус на скорости выполнения
запросов
➔ Приблизительные вычисления
➔ Массивы, кортежи
➔ Распределённые запросы “из коробки”
➔ Внешние словари
➔ URI и другие функции

23
Скорость на грани фантастики
➔ Типичные запросы быстрее секунды
➔ >100 раз быстрей нам Hadoop
➔ >100 раз быстрей чем типичная RDBMS
➔ 100 млн - 1 миллиард строк в секунду на одной ноде
➔ До 2 терабайт в секунду для кластера на 400 нод

25
Когда не надо использовать
➔ OLTP
➔ Key-value
➔ Document-oriented
➔ Модификация данных

26
Best practises
➔ Широкие таблицы, множество колонок
➔ QPS относительно небольшой, но много данных
используется в каждом запросе
➔ Большой поток входящих данных
➔ Аналитика по петабайтам данных

30
Быстрые результаты пилота
Две крайности

31
Быстрые результаты пилота

32
А если надо обновлять таблицу?

33
А если надо удалять?

35
Залог успешного переезда

36
Спасибо!
Pavel.Alekseev@Taskdata.com

High load++2016.highlights (dropbox+clickhouse)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (18)

Similaire à High load++2016.highlights (dropbox+clickhouse)

Similaire à High load++2016.highlights (dropbox+clickhouse) (20)

Plus de Pavel Alexeev

Plus de Pavel Alexeev (6)

Dernier

Dernier (9)

High load++2016.highlights (dropbox+clickhouse)