SlideShare a Scribd company logo
1 of 26
Download to read offline
Мониторинг в микросервисной архитектуре
Владимир
Колобаев
Системный администратор
Развитие систем мониторинга
МониторингМониторинг
этоэто
сервиссервис
Глава I : Прошлое — Схема инфраструктуры мониторинга
Глава I : Прошлое — Схема инфраструктуры мониторинга
Глава I : Прошлое — Планируем светлое будущее
Глава I : Прошлое — Мониторинг 2.0
Требования к системе
- интервал хранения метрик = 10 сек
- структурированное хранение метрик и дашбордов
- SLA > 99,99%
- cбор метрик по UDP!
Группа Хранимые метрики
network сеть и сетевое оборудование
servers исключительно метрики о работе серверов (cpu, ram, hdd, swap, eth, etc)
containers метрики контейнеров и хостах, которые могут менять физическое расположени
resources метрики расшаренных ресурсов, например memcache, rabbitmq cluster, etc
apps метрики о сервисах, отдельно стоящих приложениях, демонах. крон-скриптах,
приложениях внутри тарантула и т.д.
products продуктовые метрики
complex комплексные метрики
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Brubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Brubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Brubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02Brubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAMBrubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAM
Alerting
Moira
Brubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAM
SMS
Jira
EmailAlerting
Moira
Slack
Imagotag
Brubeck02
Глава II : Настоящее — Схема взаимодействия компонентов мониторинга
Apps
Hardware
System
Soft
Munin
Aggregator cluster
Brubeck01
Collectd
Carbon-c-relay
Graphite cluster
Graphite01
Graphite02
Grafana
SLAM
SMS
Jira
EmailAlerting
Moira
Slack
Imagotag
Brubeck02
Kubernetes Heapster
Глава II : Настоящее — Alerting: SES Imagotag
Глава II : Настоящее — Компоненты мониторинга
Graphite:
- go-carbon: https://github.com/lomik/go-carbon
- whisper: https://github.com/graphite-project/whisper
- graphite-api: https://github.com/brutasse/graphite-api
Carbon-c-relay: https://github.com/grobian/carbon-c-relay
Brubeck: https://github.com/github/brubeck
Collectd: https://collectd.org/
Moira: https://github.com/moira-alert
Grafana: https://grafana.com/
Heapster: https://github.com/kubernetes/heapster
Aggregator (brubeck):
- Количество метрик: ~ 300 000 / sec
- Интервал отправки метрик в
графит: 30 sec
- Использование ресурсов сервера:
~ 6% CPU;
~ 1Gb DDR;
~ 3 Mbps LAN
Глава II : Настоящее — Статистика
Graphite (go-carbon):
- Количество метрик: ~ 1 600 000 / min
- Интервал обновления метрик: 30 sec
- Схема хранения метрик: 30sec 35d, 5min 90d,
10min 365d
- Использование ресурсов сервера:
~ 10% CPU;
~ 20Gb DDR;
~ 30 Mbps LAN
Глава II : Настоящее — Гибкость
ВЗАИМОЗАМЕНЯЕМОСТЬ
ПОДДЕРЖИВАЕМОСТЬ
Глава II : Настоящее — Гибкость: поддерживаемость
* Sql запрос взят, в качестве примера, с сайта: https://postgrespro.ru/docs/postgrespro/9.6/queries-with
Когда имя метрики не помещается в имя файла, на помощь приходит Redis …
Глава II : Настоящее — Итого ...
ДОСТУПНОСТЬ
НАДЕЖНОСТЬ
НИЗКИЙ ПОРОГ ВХОЖДЕНИЯ
САМОСТОЯТЕЛЬНОСТЬ
Глава III : Будущее
ДЕТЕКТОР АНОМАЛИЙ
МЕТАДАННЫЕ
МОНИТОРИНГ В КАЖДЫЙ ДОМ
Мониторинг в микросервисной архитектуре
Mail: vkolobaev@avito.ru
Skype: kolobaev.v.l
ВОПРОСЫ
Владимир
Колобаев
Системный администратор
Развитие систем мониторинга

More Related Content

Similar to Мониторинг в микросервисной архитектуре / Владимир Колобаев (Avito)

"Web Vitals monitoring & optimizations", Erik Himiranov
"Web Vitals monitoring & optimizations", Erik Himiranov"Web Vitals monitoring & optimizations", Erik Himiranov
"Web Vitals monitoring & optimizations", Erik HimiranovFwdays
 
Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...
Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...
Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...Cisco Russia
 
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...ForkConf
 
Symfony2 practice
Symfony2 practiceSymfony2 practice
Symfony2 practiceSkorney
 
Программируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применениеПрограммируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применениеCisco Russia
 
Highload2009 Top100 V3
Highload2009 Top100 V3Highload2009 Top100 V3
Highload2009 Top100 V3HighLoad2009
 
CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...
CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...
CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...CodeFest
 
Коктейль Skydive или как мы мы делали 2ГИС-Онлайн
Коктейль Skydive или как мы мы делали 2ГИС-ОнлайнКоктейль Skydive или как мы мы делали 2ГИС-Онлайн
Коктейль Skydive или как мы мы делали 2ГИС-ОнлайнKonstantin Likhter
 
iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...
iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...
iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...Cisco Russia
 
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центрМониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центрsportgid
 
Cisco DFA. Демонстрация функционирования, управления и интеграции
Cisco DFA. Демонстрация функционирования, управления и интеграцииCisco DFA. Демонстрация функционирования, управления и интеграции
Cisco DFA. Демонстрация функционирования, управления и интеграцииCisco Russia
 
Positive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADA
Positive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADAPositive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADA
Positive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADAPositive Hack Days
 
Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...
Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...
Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...Cisco Russia
 
Архитектура UCCE: компоненты UCCE и их взаимодействие
Архитектура UCCE: компоненты UCCE и их взаимодействиеАрхитектура UCCE: компоненты UCCE и их взаимодействие
Архитектура UCCE: компоненты UCCE и их взаимодействиеCisco Russia
 
SAM-решения в Softline: максимум порядка, минимум затрат
SAM-решения в Softline: максимум порядка, минимум затратSAM-решения в Softline: максимум порядка, минимум затрат
SAM-решения в Softline: максимум порядка, минимум затратSoftline
 
Управление корпоративной сетью на основе SDN-технологий
Управление корпоративной сетью на основе SDN-технологий Управление корпоративной сетью на основе SDN-технологий
Управление корпоративной сетью на основе SDN-технологий ARCCN
 
презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014
презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014
презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014Artsofte IT company
 
Стабильны ли ваши приложения в облаках?
Стабильны ли ваши приложения в облаках?Стабильны ли ваши приложения в облаках?
Стабильны ли ваши приложения в облаках?Yandex
 
DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...
DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...
DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...it-people
 
Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...
Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...
Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...Cisco Russia
 

Similar to Мониторинг в микросервисной архитектуре / Владимир Колобаев (Avito) (20)

"Web Vitals monitoring & optimizations", Erik Himiranov
"Web Vitals monitoring & optimizations", Erik Himiranov"Web Vitals monitoring & optimizations", Erik Himiranov
"Web Vitals monitoring & optimizations", Erik Himiranov
 
Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...
Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...
Облачные приложения и построение платформ для них на базе Openstack Дмитрий Х...
 
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
(2 часть) 1С-Битрикс. Производительность проекта. Архитектура проекта «Битрик...
 
Symfony2 practice
Symfony2 practiceSymfony2 practice
Symfony2 practice
 
Программируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применениеПрограммируемость и автоматизация решений Ciscо - практическое применение
Программируемость и автоматизация решений Ciscо - практическое применение
 
Highload2009 Top100 V3
Highload2009 Top100 V3Highload2009 Top100 V3
Highload2009 Top100 V3
 
CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...
CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...
CodeFest 2012. Лихтер К, Таратухин И. — Коктейль «Skydive» или как мы делали ...
 
Коктейль Skydive или как мы мы делали 2ГИС-Онлайн
Коктейль Skydive или как мы мы делали 2ГИС-ОнлайнКоктейль Skydive или как мы мы делали 2ГИС-Онлайн
Коктейль Skydive или как мы мы делали 2ГИС-Онлайн
 
iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...
iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...
iWAN: Мониторинг, контроль и оптимизация работы приложений для распределенных...
 
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центрМониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
 
Cisco DFA. Демонстрация функционирования, управления и интеграции
Cisco DFA. Демонстрация функционирования, управления и интеграцииCisco DFA. Демонстрация функционирования, управления и интеграции
Cisco DFA. Демонстрация функционирования, управления и интеграции
 
Positive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADA
Positive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADAPositive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADA
Positive Hack Days. Комаров. Мастер-класс: Анализ защищенности SCADA
 
Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...
Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...
Планирование и оптимизация сети оператора связи IP/MPLS с Cisco WAN Orchestra...
 
Архитектура UCCE: компоненты UCCE и их взаимодействие
Архитектура UCCE: компоненты UCCE и их взаимодействиеАрхитектура UCCE: компоненты UCCE и их взаимодействие
Архитектура UCCE: компоненты UCCE и их взаимодействие
 
SAM-решения в Softline: максимум порядка, минимум затрат
SAM-решения в Softline: максимум порядка, минимум затратSAM-решения в Softline: максимум порядка, минимум затрат
SAM-решения в Softline: максимум порядка, минимум затрат
 
Управление корпоративной сетью на основе SDN-технологий
Управление корпоративной сетью на основе SDN-технологий Управление корпоративной сетью на основе SDN-технологий
Управление корпоративной сетью на основе SDN-технологий
 
презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014
презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014
презентация Адеев Николай, Artsofte для Tеlecom&Clouds 2014
 
Стабильны ли ваши приложения в облаках?
Стабильны ли ваши приложения в облаках?Стабильны ли ваши приложения в облаках?
Стабильны ли ваши приложения в облаках?
 
DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...
DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...
DUMP-2013 Serverside - Архитектура Битрикс24 в Amazon Web Services – изнутри ...
 
Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...
Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...
Применение WAN Automation Engine для предоставления новых услуг и онлайн-опт...
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Мониторинг в микросервисной архитектуре / Владимир Колобаев (Avito)

  • 1. Мониторинг в микросервисной архитектуре Владимир Колобаев Системный администратор Развитие систем мониторинга
  • 3.
  • 4. Глава I : Прошлое — Схема инфраструктуры мониторинга
  • 5. Глава I : Прошлое — Схема инфраструктуры мониторинга
  • 6. Глава I : Прошлое — Планируем светлое будущее
  • 7. Глава I : Прошлое — Мониторинг 2.0 Требования к системе - интервал хранения метрик = 10 сек - структурированное хранение метрик и дашбордов - SLA > 99,99% - cбор метрик по UDP! Группа Хранимые метрики network сеть и сетевое оборудование servers исключительно метрики о работе серверов (cpu, ram, hdd, swap, eth, etc) containers метрики контейнеров и хостах, которые могут менять физическое расположени resources метрики расшаренных ресурсов, например memcache, rabbitmq cluster, etc apps метрики о сервисах, отдельно стоящих приложениях, демонах. крон-скриптах, приложениях внутри тарантула и т.д. products продуктовые метрики complex комплексные метрики
  • 8.
  • 9. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin
  • 10. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Brubeck02
  • 11. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Brubeck02
  • 12. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Carbon-c-relay Brubeck02
  • 13. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Carbon-c-relay Graphite cluster Graphite01 Graphite02Brubeck02
  • 14. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Carbon-c-relay Graphite cluster Graphite01 Graphite02 Grafana SLAMBrubeck02
  • 15. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Carbon-c-relay Graphite cluster Graphite01 Graphite02 Grafana SLAM Alerting Moira Brubeck02
  • 16. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Carbon-c-relay Graphite cluster Graphite01 Graphite02 Grafana SLAM SMS Jira EmailAlerting Moira Slack Imagotag Brubeck02
  • 17. Глава II : Настоящее — Схема взаимодействия компонентов мониторинга Apps Hardware System Soft Munin Aggregator cluster Brubeck01 Collectd Carbon-c-relay Graphite cluster Graphite01 Graphite02 Grafana SLAM SMS Jira EmailAlerting Moira Slack Imagotag Brubeck02 Kubernetes Heapster
  • 18. Глава II : Настоящее — Alerting: SES Imagotag
  • 19. Глава II : Настоящее — Компоненты мониторинга Graphite: - go-carbon: https://github.com/lomik/go-carbon - whisper: https://github.com/graphite-project/whisper - graphite-api: https://github.com/brutasse/graphite-api Carbon-c-relay: https://github.com/grobian/carbon-c-relay Brubeck: https://github.com/github/brubeck Collectd: https://collectd.org/ Moira: https://github.com/moira-alert Grafana: https://grafana.com/ Heapster: https://github.com/kubernetes/heapster
  • 20. Aggregator (brubeck): - Количество метрик: ~ 300 000 / sec - Интервал отправки метрик в графит: 30 sec - Использование ресурсов сервера: ~ 6% CPU; ~ 1Gb DDR; ~ 3 Mbps LAN Глава II : Настоящее — Статистика Graphite (go-carbon): - Количество метрик: ~ 1 600 000 / min - Интервал обновления метрик: 30 sec - Схема хранения метрик: 30sec 35d, 5min 90d, 10min 365d - Использование ресурсов сервера: ~ 10% CPU; ~ 20Gb DDR; ~ 30 Mbps LAN
  • 21. Глава II : Настоящее — Гибкость ВЗАИМОЗАМЕНЯЕМОСТЬ ПОДДЕРЖИВАЕМОСТЬ
  • 22. Глава II : Настоящее — Гибкость: поддерживаемость * Sql запрос взят, в качестве примера, с сайта: https://postgrespro.ru/docs/postgrespro/9.6/queries-with Когда имя метрики не помещается в имя файла, на помощь приходит Redis …
  • 23. Глава II : Настоящее — Итого ... ДОСТУПНОСТЬ НАДЕЖНОСТЬ НИЗКИЙ ПОРОГ ВХОЖДЕНИЯ САМОСТОЯТЕЛЬНОСТЬ
  • 24.
  • 25. Глава III : Будущее ДЕТЕКТОР АНОМАЛИЙ МЕТАДАННЫЕ МОНИТОРИНГ В КАЖДЫЙ ДОМ
  • 26. Мониторинг в микросервисной архитектуре Mail: vkolobaev@avito.ru Skype: kolobaev.v.l ВОПРОСЫ Владимир Колобаев Системный администратор Развитие систем мониторинга