РИТ++ 2017
Зал Сан-Паулу, 5 июня, 14:00
Тезисы:
http://ritfest.ru/2017/abstracts/2651.html
Cтремительно развивающаяся архитектура Avito предъявляет высокие требования к системе мониторинга. В докладе будет рассказано про централизованный сервис мониторинга, предоставляющий разработчикам возможность самостоятельно отправлять метрики, создавать дашборды, триггеры и нотификации для своих проектов.
7. Глава I : Прошлое — Мониторинг 2.0
Требования к системе
- интервал хранения метрик = 10 сек
- структурированное хранение метрик и дашбордов
- SLA > 99,99%
- cбор метрик по UDP!
Группа Хранимые метрики
network сеть и сетевое оборудование
servers исключительно метрики о работе серверов (cpu, ram, hdd, swap, eth, etc)
containers метрики контейнеров и хостах, которые могут менять физическое расположени
resources метрики расшаренных ресурсов, например memcache, rabbitmq cluster, etc
apps метрики о сервисах, отдельно стоящих приложениях, демонах. крон-скриптах,
приложениях внутри тарантула и т.д.
products продуктовые метрики
complex комплексные метрики
8.
9. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
10. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Brubeck02
11. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Brubeck02
12. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Brubeck02
13. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02Brubeck02
14. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAMBrubeck02
15. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAM
Alerting
Moira
Brubeck02
16. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAM
SMS
Jira
EmailAlerting
Moira
Slack
Imagotag
Brubeck02
17. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAM
SMS
Jira
EmailAlerting
Moira
Slack
Imagotag
Brubeck02
Kubernetes Heapster
19. Глава II : Настоящее — Компоненты мониторинга
Graphite:
- go-carbon: https://github.com/lomik/go-carbon
- whisper: https://github.com/graphite-project/whisper
- graphite-api: https://github.com/brutasse/graphite-api
Carbon-c-relay: https://github.com/grobian/carbon-c-relay
Brubeck: https://github.com/github/brubeck
Collectd: https://collectd.org/
Moira: https://github.com/moira-alert
Grafana: https://grafana.com/
Heapster: https://github.com/kubernetes/heapster
20. Aggregator (brubeck):
- Количество метрик: ~ 300 000 / sec
- Интервал отправки метрик в
графит: 30 sec
- Использование ресурсов сервера:
~ 6% CPU;
~ 1Gb DDR;
~ 3 Mbps LAN
Глава II : Настоящее — Статистика
Graphite (go-carbon):
- Количество метрик: ~ 1 600 000 / min
- Интервал обновления метрик: 30 sec
- Схема хранения метрик: 30sec 35d, 5min 90d,
10min 365d
- Использование ресурсов сервера:
~ 10% CPU;
~ 20Gb DDR;
~ 30 Mbps LAN
21. Глава II : Настоящее — Гибкость
ВЗАИМОЗАМЕНЯЕМОСТЬ
ПОДДЕРЖИВАЕМОСТЬ
22. Глава II : Настоящее — Гибкость: поддерживаемость
* Sql запрос взят, в качестве примера, с сайта: https://postgrespro.ru/docs/postgrespro/9.6/queries-with
Когда имя метрики не помещается в имя файла, на помощь приходит Redis …
23. Глава II : Настоящее — Итого ...
ДОСТУПНОСТЬ
НАДЕЖНОСТЬ
НИЗКИЙ ПОРОГ ВХОЖДЕНИЯ
САМОСТОЯТЕЛЬНОСТЬ
24.
25. Глава III : Будущее
ДЕТЕКТОР АНОМАЛИЙ
МЕТАДАННЫЕ
МОНИТОРИНГ В КАЖДЫЙ ДОМ
26. Мониторинг в микросервисной архитектуре
Mail: vkolobaev@avito.ru
Skype: kolobaev.v.l
ВОПРОСЫ
Владимир
Колобаев
Системный администратор
Развитие систем мониторинга