2. Обо мне
!
!
Олег Новиков,
руководитель отдела аналитики Sports.ru,
автор кандидатской диссертации
«Высоконагруженные рекомендательные
системы» в Высшей Школе Экономики
3. Зачем?
caйта
sports.ru ua.tribuna.com by.tribuna.com
мобильных приложений
потоков в соцсетях
• Много разных сервисов для
аналитики
!
• Нет доступа к «сырым»
данным
• Нужны свои отчеты и
метрики
• Нельзя делать запросы к
данным из разных
источников
4. Где хранить данные?
• Нужен удобный доступ (SQL)
• Возможность обрабатывать много данных,
например, clickstream
• Простота внедрения
• Способность легко масштабироваться
5. Amazon Redshift – плюсы
Распределенная колоночная СУБД
Поддерживает много функций и типов данных из
PostgreSQL
Очень быстро выполняет типичные аналитические
запросы с группировками и агрегирующими функциями
на небольшое число полей
Очень легко мастштабируется, стоимость зависит от
объема данных
6. Amazon Redshift – минусы
Не поддерживает ограничения целостности и триггеры
Не поддерживает много функций и типов данных из
PostgreSQL
Медленно выполняет запросы с участием нескольких полей
(select * from table where id=<> будет работать несколько
секунд)
Медленно работают инсерты (они и не нужны), загрузка
данных – пачками из файлов, загруженных в Amazon S3
7. Amazon Redshift
• DISTKEY и SORTKEY
• Гибкие настройки пользователей
и ресурсов
11. Хранилище
Сырые данные
• Clickstream
(старые !
только за последний месяц,
данные – в Amazon Glacier)
• Активность
• Подписки + установки
Агрегаты
• Сессии
• По дням/неделям/
месяцам
• Профили пользователей
15. 2 – Бизнес-анализ
Панели для всех отделов:
• Трафик
• Пользовательская активность
• Популярное #прямосейчас
• Соцсети
• Мобильные приложения
• Инвентарь продаж
• Редакционный процесс
16.
17.
18.
19.
20.
21.
22. Хранение персональных данных
Федеральный закон № 242-ФЗ
• У Amazon нет серверов в России
• В Redshift не отправляются персональные
данные, только id
• Chart.io запрашивает персональные данные из
БД сайта и джонит на таблицы из Redshift