1. Talksum Data Stream Router™
Новый подход к работе с большими данными
1
Confidential Information of Talksum, Inc.
2. Проблемы работы с большими данными
Для работы с Большими Данными требуются не только новые системы
хранения и системы бизнес-аналитики (BI). Необходим современный
подход к архитектуре и управлению данными.
• Проблема: Тяжело одновременно справляться с нарастающими
объемами данных и реагировать на меняющиеся требования к этим
данным.
• Сложность решения: Разнообразные источники генерируют огромные
массивы информации; данные быстро устаревают; часто имеет смысл
ограничиться сохранением только явных аномалий данных; во многих
случаях можно урезать данные без потери информации; доступные
решения для Больших Данных требуют специальных технических
навыков.
• Стоимость решения: Расходы на обработку данных (персонал, время,
инфраструктура) быстро растут, делая
традиционные решения обработки данных
непозволительно дорогими.
2
Confidential Information of Talksum, Inc.
3. Решение Talksum
Новый, современный подход к управлению данными и аналитике с
акцентом на скорость, простоту, экономичность
• Скорость: Решение обслуживает текущие и будущие инициативы
Big Data в реальном времени, оптимизирует инфраструктуру
Больших Данных.
• Простота: Упрощение процесса управления данными. Данные
легко отслеживать, анализировать и маршрутизировать в
реальном времени, одновременно снижая затраты на сбор
данных, ETL и интеграцию.
• Экономичность: Высокоэффективное решение,
требующее минимальных ресурсов, а значит и
снижающее затраты.
3
Confidential Information of Talksum, Inc.
4. Принцип работы Talksum Data Stream Router
Скорость | Простота | Эффективность
Intake
4
Confidential Information of Talksum, Inc.
•
•
•
•
•
•
•
•
Transform
Filter
Data Reduce
Monitor/Alert
Aggregate
Enrich
Analyze
Route
Store
5. Обработка данных
BI
Tool s
An al yt i c
Apps
Talksum Data Processor&Router
Ext er n al St or age
Syst em
Logs
Dat a Cach e
NoSQL
AWS
App
Dat a
Devi ce
St at s
Devi ce
St at s
Transform
Filter
Aggregate
Count
Reduce
Hadoop
SQL Dat a
War eh ou se
Th i r d Par t y
API
Ot h er
Dat a
Real -Ti me
Oper at i on s
Mon i t or i n g & Al er t s
Devi ce
Remot e
Si t es
5
Confidential Information of Talksum, Inc.
6. Talksum Data Stream Router – Маршрутизатор Данных
Refined Data Stream
Refined Data Stream
Логи
приложений
Unix Logs – RFC3164 UDP/TCP
Netflow – UDP – NG v.5, 8, 9, 10
Прикладные
данные
Patient Records (HL7) XML/ASN.1
Transportation (BSM) SAE J2735
Данные извне
B2B/M2M
Соцсети
и доступные
данные
6
Клиент B:
Агрегированные данные
Refined Data Stream
Клиент C:
Динамический Поток
Apache Common Logging – Files
SNMP - UDP
Системные
логи
Данные
сенсоров и
телематики
Клиент A:
Суммированные данные
I2C, CAN, SNMP, Serial
XML, JSON, File, HTTP REST
Twitter, RSS,
CAP (Weather Alerts)
Confidential Information of Talksum, Inc.
Talksum
Data Stream
Router
(TDSR)
• Нормализация
данных
• Синтаксический
Анализ
• Фильтры
• Метрики и
Счетчики
• ETL/PTL
без сохранения
• Выходные потоки
асинхронны
• Верификация
Протокола
Indexed, Mapped, Reduced
Ordered, Sorted Data Streams
Bulk Data Streams
(Lightly Ordered
and Filtered)
• Object Data Stores
• Indexed Data Caches
• NoSQL Data
Warehouses
• SQL Warehouse
• Bulk Data Stores
• File Storage
7. Talksum Data Stream Router
Talksum Data Stream Router реализует новый подход к
управлению данными и аналитике
1. Транслирует входные данные в реальном времени…
2. …конвертируя в гибко управляемые потоки данных
3. …фильтруя и маршрутизируя по контенту
4. …и по корреляции событий из разных доменов
5. …продолжая пополнять существующие системы хранения и
бизнес аналитики.
7
Confidential Information of Talksum, Inc.
8. Вход – Логика транспорта протоколов
• Транспортные протоколы (TCP, UDP, PGM)
• Прикладные (Application) протоколы (HTTP, RFC3164, SNMP,
ZeroMQ)
• Форматы сериализации (JSON, BSON, ASN.1, Protobuf,
MessagePack)
• API Анализатора (Parser API) позволяет легко создавать
синтаксические анализаторы для сообщений прикладного
уровня
• Расширенные возможности управления – чтобы упростить
добавление логики
• Цель – конвертация данных, приходящих в разнообразных
форматах, разными способами транспорта, в потоки данных
8
Confidential Information of Talksum, Inc.
9. Фильтрация, Маршрутизация, Агрегация
• Техники Filter, Pivot, и Мap Reduction применяются «на лету»,
без промежуточного сохранения
• Фильтрация по значению, контексту, состоянию
• Сложная фильтрация нескольких потоков
• Функции Гистограммы для сжатия и сокращения размеров
данных
9
Confidential Information of Talksum, Inc.
10. Трансформация
• “Realtime ETL” для различных потоков данных
• Создание новых сообщений, созданных из свойств
существующих сообщений и статического текста
• Создание SQL команд для вывода во внешние реляционные
БД
• Генерация «атомных» инкрементных команд MongoDB для
простых агрегаций
• Генерация сообщений Redis
10
Confidential Information of Talksum, Inc.
11. Выход
• MongoDB
• Redis
• Elasticsearch
• HDFS
• PostgreSQL
• MySQL
• REST API
11
Confidential Information of Talksum, Inc.
• Маршрутизация через
параллельные каналы для
максимизации пропускной
способности
• Создание сообщений из любых
доступных атрибутов
• Детальные метрики для каждого
маршрута