SlideShare une entreprise Scribd logo
1  sur  25
Télécharger pour lire hors ligne
Разработка 
аналитической системы 
для высоконагруженного 
медиа 
Олег Новиков
Обо мне 
! 
! 
Олег Новиков, 
руководитель отдела аналитики Sports.ru, 
автор кандидатской диссертации 
«Высоконагруженные рекомендательные 
системы» в Высшей Школе Экономики
Зачем? 
caйта 
sports.ru ua.tribuna.com by.tribuna.com 
мобильных приложений 
потоков в соцсетях 
• Много разных сервисов для 
аналитики 
! 
• Нет доступа к «сырым» 
данным 
• Нужны свои отчеты и 
метрики 
• Нельзя делать запросы к 
данным из разных 
источников
Где хранить данные? 
• Нужен удобный доступ (SQL) 
• Возможность обрабатывать много данных, 
например, clickstream 
• Простота внедрения 
• Способность легко масштабироваться
Amazon Redshift – плюсы 
Распределенная колоночная СУБД 
Поддерживает много функций и типов данных из 
PostgreSQL 
Очень быстро выполняет типичные аналитические 
запросы с группировками и агрегирующими функциями 
на небольшое число полей 
Очень легко мастштабируется, стоимость зависит от 
объема данных
Amazon Redshift – минусы 
Не поддерживает ограничения целостности и триггеры 
Не поддерживает много функций и типов данных из 
PostgreSQL 
Медленно выполняет запросы с участием нескольких полей 
(select * from table where id=<> будет работать несколько 
секунд) 
Медленно работают инсерты (они и не нужны), загрузка 
данных – пачками из файлов, загруженных в Amazon S3
Amazon Redshift 
• DISTKEY и SORTKEY 
• Гибкие настройки пользователей 
и ресурсов
Источники данных
Посещаемость
Хранилище 
Сырые данные 
• Clickstream 
• Активность 
• Подписки + установки
Хранилище 
Сырые данные 
• Clickstream 
(старые ! 
только за последний месяц, 
данные – в Amazon Glacier) 
• Активность 
• Подписки + установки 
Агрегаты 
• Сессии 
• По дням/неделям/ 
месяцам 
• Профили пользователей
Ввод данных
PROFIT! 
• Adhoc-анализ 
• Дашборды для всех отделов 
• Персонализация 
• Поиск ботов в системе рейтингов на сайте
Adhoc-анализ 
• SQL-интерфейс 
• Любые аналитические запросы 
• Анализ сырых данных 
• Без семплирования
2 – Бизнес-анализ 
Панели для всех отделов: 
• Трафик 
• Пользовательская активность 
• Популярное #прямосейчас 
• Соцсети 
• Мобильные приложения 
• Инвентарь продаж 
• Редакционный процесс
Хранение персональных данных 
Федеральный закон № 242-ФЗ 
• У Amazon нет серверов в России 
• В Redshift не отправляются персональные 
данные, только id 
• Chart.io запрашивает персональные данные из 
БД сайта и джонит на таблицы из Redshift
Персонализация 
• Нарезка пользователей 
для рассылок 
• Персональные 
рекомендации
Расходы 
Ежемесячно #прямосейчас: 
$500 
$180x4 
$300x2 
_________ 
$1 820 
! 
Chart.io 10 пользователей 
ноды Amazon Redshift 
фронтенд-сервера для логов 
!
«Как мы используем инфраструктуру обработки данных» 
«Как устроена инфраструктура анализа данных?» 
habrahabr.ru/company/sports_ru 
! 
! 
facebook.com/oleg.v.novikov

Contenu connexe

Tendances

Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
Roman Zykov
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)
Ontico
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
2ГИС Технологии
 
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Ontico
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Mikhail Tabunov
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Ontico
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Ontico
 

Tendances (19)

Shadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событийShadow Fight 2: архитектура системы аналитики для миллиарда событий
Shadow Fight 2: архитектура системы аналитики для миллиарда событий
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
 
ClickHouse
ClickHouseClickHouse
ClickHouse
 
Olap
OlapOlap
Olap
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
 
«Облачная платформа Windows Azure для высоконагруженных проектов»
«Облачная платформа Windows Azure для высоконагруженных проектов»«Облачная платформа Windows Azure для высоконагруженных проектов»
«Облачная платформа Windows Azure для высоконагруженных проектов»
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)
 
Cергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИСCергей Коржнев, 2ГИС
Cергей Коржнев, 2ГИС
 
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
«Система развёртывания многокомпонентного сервиса» — Алексей Салов, YaC 2013
 
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
Что нужно знать об архитектуре ClickHouse / Алексей Зателепин (Яндекс)
 
Clickhouse
ClickhouseClickhouse
Clickhouse
 
Hadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. BusinessHadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. Business
 
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяцКак мы строили аналитическую платформу на несколько миллиардов событии в месяц
Как мы строили аналитическую платформу на несколько миллиардов событии в месяц
 
Автоматизация анализа логов на базе Elasticsearch
Автоматизация анализа логов на базе ElasticsearchАвтоматизация анализа логов на базе Elasticsearch
Автоматизация анализа логов на базе Elasticsearch
 
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
Cервис рекомендаций на виртуальном Hadoop кластере (Роман Зыков)
 
сервисы персонализации на основе данных
сервисы персонализации на основе данныхсервисы персонализации на основе данных
сервисы персонализации на основе данных
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
 

Similaire à Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
CIT TROYA
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
Mariia Bocheva
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
Маркетинг-аналитика с OWOX BI
 
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google AnalyticsЭффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эльдар Нагорный
 
Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014
mikeslivinsky
 
10 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.201410 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.2014
O K
 
Архитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай самАрхитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай сам
Sergey Xek
 

Similaire à Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com) (20)

Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина:  подготовка,этапы, проблемыПоисковое продвижение интернет-магазина:  подготовка,этапы, проблемы
Поисковое продвижение интернет-магазина: подготовка,этапы, проблемы
 
Преимущества инструментов Gilev.ru 2016 09
Преимущества инструментов Gilev.ru 2016 09Преимущества инструментов Gilev.ru 2016 09
Преимущества инструментов Gilev.ru 2016 09
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
 
Как спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитикиКак спроектировать систему сквозной аналитики
Как спроектировать систему сквозной аналитики
 
Веб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrendsВеб-аналитика для всех: WebTrends
Веб-аналитика для всех: WebTrends
 
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google AnalyticsЭффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
Эффективный анализ аудитории веб ресурса. Тонкости применения Google Analytics
 
Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.Управляем сайтом: Быстро. Просто. Эффективно.
Управляем сайтом: Быстро. Просто. Эффективно.
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Управление сетками сайтов
Управление сетками сайтовУправление сетками сайтов
Управление сетками сайтов
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014Что вы знаете о своем seo? @seoconference,2014
Что вы знаете о своем seo? @seoconference,2014
 
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архивSCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
SCIPorgua, CompetitiveCamp-2010, ИАС-Семантический-архив
 
Metadata.js
Metadata.jsMetadata.js
Metadata.js
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
 
10 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.201410 основных метрик для анализа вашего сайта - 1.12.2014
10 основных метрик для анализа вашего сайта - 1.12.2014
 
Аналитика мобильных приложений
Аналитика мобильных приложенийАналитика мобильных приложений
Аналитика мобильных приложений
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
Защищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центровЗащищенная веб-аналитика для банков, телекомов, медицинских центров
Защищенная веб-аналитика для банков, телекомов, медицинских центров
 
Архитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай самАрхитектура А/Б тестирования: сделай сам
Архитектура А/Б тестирования: сделай сам
 
Cергей Aверин, Badoo
Cергей Aверин, BadooCергей Aверин, Badoo
Cергей Aверин, Badoo
 

Plus de Ontico

Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Ontico
 

Plus de Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Разработка аналитической системы для высоконагруженного медиа, Олег Новиков, Илья Салтанов (Sports.ru & Tribuna.com)

  • 1. Разработка аналитической системы для высоконагруженного медиа Олег Новиков
  • 2. Обо мне ! ! Олег Новиков, руководитель отдела аналитики Sports.ru, автор кандидатской диссертации «Высоконагруженные рекомендательные системы» в Высшей Школе Экономики
  • 3. Зачем? caйта sports.ru ua.tribuna.com by.tribuna.com мобильных приложений потоков в соцсетях • Много разных сервисов для аналитики ! • Нет доступа к «сырым» данным • Нужны свои отчеты и метрики • Нельзя делать запросы к данным из разных источников
  • 4. Где хранить данные? • Нужен удобный доступ (SQL) • Возможность обрабатывать много данных, например, clickstream • Простота внедрения • Способность легко масштабироваться
  • 5. Amazon Redshift – плюсы Распределенная колоночная СУБД Поддерживает много функций и типов данных из PostgreSQL Очень быстро выполняет типичные аналитические запросы с группировками и агрегирующими функциями на небольшое число полей Очень легко мастштабируется, стоимость зависит от объема данных
  • 6. Amazon Redshift – минусы Не поддерживает ограничения целостности и триггеры Не поддерживает много функций и типов данных из PostgreSQL Медленно выполняет запросы с участием нескольких полей (select * from table where id=<> будет работать несколько секунд) Медленно работают инсерты (они и не нужны), загрузка данных – пачками из файлов, загруженных в Amazon S3
  • 7. Amazon Redshift • DISTKEY и SORTKEY • Гибкие настройки пользователей и ресурсов
  • 10. Хранилище Сырые данные • Clickstream • Активность • Подписки + установки
  • 11. Хранилище Сырые данные • Clickstream (старые ! только за последний месяц, данные – в Amazon Glacier) • Активность • Подписки + установки Агрегаты • Сессии • По дням/неделям/ месяцам • Профили пользователей
  • 13. PROFIT! • Adhoc-анализ • Дашборды для всех отделов • Персонализация • Поиск ботов в системе рейтингов на сайте
  • 14. Adhoc-анализ • SQL-интерфейс • Любые аналитические запросы • Анализ сырых данных • Без семплирования
  • 15. 2 – Бизнес-анализ Панели для всех отделов: • Трафик • Пользовательская активность • Популярное #прямосейчас • Соцсети • Мобильные приложения • Инвентарь продаж • Редакционный процесс
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22. Хранение персональных данных Федеральный закон № 242-ФЗ • У Amazon нет серверов в России • В Redshift не отправляются персональные данные, только id • Chart.io запрашивает персональные данные из БД сайта и джонит на таблицы из Redshift
  • 23. Персонализация • Нарезка пользователей для рассылок • Персональные рекомендации
  • 24. Расходы Ежемесячно #прямосейчас: $500 $180x4 $300x2 _________ $1 820 ! Chart.io 10 пользователей ноды Amazon Redshift фронтенд-сервера для логов !
  • 25. «Как мы используем инфраструктуру обработки данных» «Как устроена инфраструктура анализа данных?» habrahabr.ru/company/sports_ru ! ! facebook.com/oleg.v.novikov