2. 1. Внедряем Google Analytics 360 Suite и Google BigQuery
В проектах наших клиентов более 2 млн транзакций в неделю
2. Разрабатываем сервисы OWOX BI
Работают в Google Cloud Platform и им доверяют более 5000 компаний во всем мире
3. Проводим профессиональные мероприятия
4. НЕ продаем рекламу
6. Необходимо понять, кому из лидов, какой пакет
подходит лучше всего
Это нужно, чтобы:
● Предложить клиенту самое подходящее решение
● Приоритезировать лидов для Sales
Задача
11. 1. Понимание предметной области
2. Наличие валидных данных для обучения
3. Знание Python или R
4. Понимание принципов работы алгоритмов классификации
5. Preprocessing данных
6. Развертывание обученной модели
Открытые вопросы
13. ML для всех в Google Cloud Platform
Developer SQL Analyst Data Scientist Use cases and skills
TensorFlow and
CloudML Engine
● Build and deploy state-of-art custom models
● Requires deep understanding of ML
and programming
BigQuery ML
● Build and deploy custom models using SQL
● Requires only basic understanding of ML
AutoML and
CloudML APIs
● Build and deploy Google-provided models
for standard use cases
● Requires almost no ML knowledge
14. Google BigQuery
Надежность и безопасность
SQL + UDF (JavaScript)
Скорость и легкость масштабирования
Fully Managed, Zero-Ops Data Warehouse
15.
16. Новый подход в работе с данными
Data Warehouses
From 1st-gen EDWs,
increased data collection
and analysis has helped
build more data-driven
businesses
BI Foundations
Data warehousing formed
the foundation of
reporting and
Business Intelligence
BigQuery
BigQuery represents
a fundamentally different
approach to Cloud
data warehousing
00’s Now
ML Foundations
Making BigQuery ML the
foundation for
organizations that will
leverage machine
intelligence in
their businesses
Next90’s
17. Алгоритм работы с BigQuery ML
BigQuery
Machine Learning
using BigQuery ML
Data Collection
Connect with Sales,
Marketing and Ads systems
Report through
BI platforms -
Data Studio, Looker, etc.
Predictions
Model re-training
18. Основные возможности BQ ML
● StandardSQL and UDFs within the ML queries
● Linear regression
● Binary logistic regression (classification)
● Multiclass logistic regression (up to 50 unique values)
● Model evaluation functions (Accuracy, MAE, MSE, ROC AUC, etc.)
● Model weight inspection
● Feature distribution analysis through standard functions
21. Create model options
Автоматические операции
● Подключение мощностей BigQuery
для построения модели
● Авто разбиения данных на
training и test
● Стандартизация числовых
параметров
● One-hot encoding строковых
параметров
На стороне пользователя
● L1/L2 регяляризция
●
● 3 стратегии для training/test:
Random, Sequential, Custom
● Установка learning rate
22. CREATE MODEL example
CREATE MODEL
`mydataset.mymodel`
OPTIONS
( model_type='logistic_reg',
auto_class_weights=true,
data_split_method='seq',
data_split_eval_fraction=0.3,
data_split_col='timestamp' ) AS
SELECT
column1, column2, column3, timestamp, label
FROM
`mydataset.mytable`
33. Model and feature inspection functions
ML.WEIGHTS
ML.FEATURE_INFO
ML.TRAINING_INFO
34. Pros & Cons
● Ниже порог входа для аналитика
● Обработка больших объемов данных
внутри BQ
● Отсутствие необходимости в
препроцессинге данных
● Простой механизм развертывания
● Интеграция c большим количеством
инструментов для визуализации
● Цена за CREATE MODEL
● Реализованы только 2 модели
● Нет кросс валидации
● Нельзя выбрать метрику для
оптимизации
● Есть ощущение Black Box
36. BigQuery ML в OWOX
Подготовка и чистка данных
Ipython Notebook
85% времени
Обучение и тестирование Развертывание модели
Google BigQuery
13% времени
Google BigQuery
2% времени
37. Почему нам зашел BigQuery ML
● Все данные в Google BigQuery
● Помещаемся в бесплатный Tier
● В команде нет специализации Data Science
● Каждый из нас SQL ninja
● Улучшение точности результата на 1% нерентабельно
● Можно использовать мощности GCP для обучения и теста
● Не нужно ничего разворачивать в production