Высокопроизводительная и отказоустойчивая архитектура фронтальных систем / Максим Зелинский (СберТех)

Отказоустойчивая архитектура
Единой Фронтальной Системы
Зелинский Максим
Сбербанк-Технологии

Для кого этот доклад?

Единая Фронтальная Система

Open API
Web Mobile
ATM

Open API
Web
Mobile
ATM

Наши показатели на 2016 г.
Интернет банк для физических лиц
• Общее количество пользователей: ~85 000 000
• Количество активных пользователей: ~48 000 000
• Среднее количество операций, в день: ~11 000 000

Наш технологический стек
Языки разработки:
• JavaScript/ Native на frontend’е (никакого server side!)
• Java на стороне backend’а (никакого JEE, ну почти )
Инфраструктура:
• NGINX - «умная» балансировка/ отдача статики
• IBM WebSphere Application Server - сервер приложений
• IBM WebSphere ExtremeScale - распределенный кеш
• IBM WebSphere MQ - асинхронный обмен сообщениями
• Oracle Database - хранилище

Наш Service Level Agreement
• Режим работы: 24 х 7
• Доступность: 99.99%
• Наличие технологических окон: нет
• RTO (Return Time Objective): не более 1 минуты
• RPO (Return Point Objective): 0 минут
• Disaster Recovery: не более 1 минуты

Типичная архитектура типичной
Фронтальной Системы

Браузер
Балансировщик
нагрузки
Внешняя система
СУБД
Серверы приложений

Браузер
нагрузки
СУБД
Точки
отказа?

Браузер
нагрузки
Очереди
 Зависимость от внешних систем
СУБД

Браузер
нагрузки
Очереди
 Единая точка отказа БД
СУБД
(active)
СУБД
(standby)
репликация

Браузер
нагрузки
Очереди
2N
 Уменьшение надежности из за отказа СП
СУБД
(active)
СУБД
(standby)

Браузер
нагрузки
Очереди
Распределенный кэш
2N
 Прерывание в обслуживании из за отказа СП
СУБД
(active)
СУБД
(standby)

Браузер
нагрузки
Очереди
СУБД
(active)
СУБД
(standby)
2N
DNS / Virtual IP
 Единая точка отказа БН

Браузер
нагрузки
Очереди
СУБД
(active)
СУБД
(standby)
2N
DNS / Virtual IP
Локальный кэш
 Возможность скрыть недоступность (< 1 мин)

 Возможность скрыть недоступность (< 1 мин)
Браузер
нагрузки
Очереди
СУБД
(active)
СУБД
(standby)
2N
DNS / Virtual IP
Локальный кэш
И это
все?

Отказоустойчивость и
масштабирование СУБД

Отказоустойчивость
• Репликация на уровне СХД
• Репликация средствами СУБД
• Репликация средствами приложения

Остановка и поднятие занимает
минимум 30 минут на больших объемах

Graceful shutdown по прежнему может
занять кучу времени!

А это вариант!
Graceful shutdown по прежнему может
занять кучу времени!

Масштабирование
• Использование Oracle RAC или аналога
• Offload нагрузки с основной СУБД (read-only режим)
• Средствами приложения (шардинг)

Не работает! А если работает, то в
пределах одного ДЦ

Ограниченное
применение

А это вариант!
Ограниченное
применение

Типичный подход
1. Обновление серверов приложений по группам кластеров
2. Обновление структуры БД с сохранением обратной совместимости
3. Повторить

Ок, а если меняется схема
данных радикально?

Ок, а если меняется схема
данных радикально?
Blue / Green
развертывание!

Решение?
Hint: Шардинг, репликация средствами приложения и Blue/Green развертывание

Браузер
нагрузки
СУБДСерверы
приложений

Primary
Браузер
нагрузки
Stand-In
Роутер
Консоль
управления

Primary
Браузер
нагрузки
Stand-In
Роутер
Консоль
 Disaster Recovery за считанные минуты

Primary
Браузер
нагрузки
Stand-In
Роутер
Консоль
 Blue / Green развертывание

Primary
Браузер
нагрузки
Stand-In
Роутер
Консоль
 Простой оборудования

Primary
Браузер
нагрузки
Stand-In
Роутер
Консоль
 Не решается проблема масштабирования

Многоблочность©

Блок 1
Браузер
нагрузки
Блок 2
Роутер
Блок NКонсоль

Блок 1
Браузер
нагрузки
Блок 2
Роутер

Блок 1
Браузер
нагрузки
Блок 2
Роутер
В чем магия?

Блок 1
Браузер
нагрузки
Блок 2
Роутер
• Роутер

Блок 1
Браузер
нагрузки
Блок 2
Роутер
• Роутер
• Репликация

Блок 1
Блок N
Пользователи

Блок 1
Блок N
Пользователи Auth

Блок 1
Блок N
{ id }

Блок 1
Блок NREST
Маппинг пользователей
{ id }

Блок 1
Блок NREST
Маппинг пользователей
{ id }
cookie { номер блока }

Репликация между блоками

Какие данные мы храним?
• Справочники (внутренние и внешние)
• Операционные данные

Справочники
Блок 1Внутренние
справочники
Блок N
Управление
справочниками
Oracle GoldenGate
Очереди
Внешние справочники

Справочники
Блок 1Внутренние
справочники
Блок N
Управление
справочниками
Очереди
Внешние справочники

Операционные данные
Блок 1 Блок N
Консоль
dblink

Операционные данные
Блок 1 Блок N
Консоль
dblink
В штатном режиме
операционные данные не
реплицируются

А как же noSQL решения?

Everybody lies!

Everything fails!

Выводы
• На больших объемах архитектура становится очень нетривиальной

Выводы
• Если у вас 99.99%, 24 х 7, RPO 0, RTO 1, DR «не 4 часа» - то вы попали

Выводы
• Если у вас 99.99%, 24 х 7, RPO 0, RTO 1, DR «не 4 часа» - то вы попали
• Все падает 

Контакты
Зелинский Максим
MVZelinsky.SBT@sberbank.ru
https://linkedin.com/in/maxzelinski

Высокопроизводительная и отказоустойчивая архитектура фронтальных систем / Максим Зелинский (СберТех)

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Высокопроизводительная и отказоустойчивая архитектура фронтальных систем / Максим Зелинский (СберТех)

Similaire à Высокопроизводительная и отказоустойчивая архитектура фронтальных систем / Максим Зелинский (СберТех) (20)

Plus de Ontico

Plus de Ontico (20)

Высокопроизводительная и отказоустойчивая архитектура фронтальных систем / Максим Зелинский (СберТех)