SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
1. Внедряем Google Analytics 360 Suite и Google BigQuery
В проектах наших клиентов более 2 млн транзакций в неделю
2. Разрабатываем сервисы OWOX BI
Работают в Google Cloud Platform и им доверяют более 5000 компаний во всем мире
3. Проводим профессиональные мероприятия
4. НЕ продаем рекламу
● Web-analytics setup
● Ad-hoc reports
● Dashboards
● Data engineering
● Web scraping
● Integrations
● Automation
● A/B testing
● Forecasting
● DW administration
● Researching
● Analysis
Product Analyst в OWOX
Предыстория
Как продается OWOX BI
Необходимо понять, кому из лидов, какой пакет
подходит лучше всего
Это нужно, чтобы:
● Предложить клиенту самое подходящее решение
● Приоритезировать лидов для Sales
Задача
Пусть будет ML, но
чтобы все
интерпретировалось
понятно
Такое...
Задача мультиклассовой классификации
Задача мультиклассовой классификации
Basic Business Enterprise (not set)
1. Понимание предметной области
2. Наличие валидных данных для обучения
3. Знание Python или R
4. Понимание принципов работы алгоритмов классификации
5. Preprocessing данных
6. Развертывание обученной модели
Открытые вопросы
BigQuery ML
ML для всех в Google Cloud Platform
Developer SQL Analyst Data Scientist Use cases and skills
TensorFlow and
CloudML Engine
● Build and deploy state-of-art custom models
● Requires deep understanding of ML
and programming
BigQuery ML
● Build and deploy custom models using SQL
● Requires only basic understanding of ML
AutoML and
CloudML APIs
● Build and deploy Google-provided models
for standard use cases
● Requires almost no ML knowledge
Google BigQuery
Надежность и безопасность
SQL + UDF (JavaScript)
Скорость и легкость масштабирования
Fully Managed, Zero-Ops Data Warehouse
Новый подход в работе с данными
Data Warehouses
From 1st-gen EDWs,
increased data collection
and analysis has helped
build more data-driven
businesses
BI Foundations
Data warehousing formed
the foundation of
reporting and
Business Intelligence
BigQuery
BigQuery represents
a fundamentally different
approach to Cloud
data warehousing
00’s Now
ML Foundations
Making BigQuery ML the
foundation for
organizations that will
leverage machine
intelligence in
their businesses
Next90’s
Алгоритм работы с BigQuery ML
BigQuery
Machine Learning
using BigQuery ML
Data Collection
Connect with Sales,
Marketing and Ads systems
Report through
BI platforms -
Data Studio, Looker, etc.
Predictions
Model re-training
Основные возможности BQ ML
● StandardSQL and UDFs within the ML queries
● Linear regression
● Binary logistic regression (classification)
● Multiclass logistic regression (up to 50 unique values)
● Model evaluation functions (Accuracy, MAE, MSE, ROC AUC, etc.)
● Model weight inspection
● Feature distribution analysis through standard functions
3 основные метода в BigQuery ML
ML.PREDICT
ML.EVALUATE
CREATE MODEL
CREATE MODEL syntax
CREATE MODEL model_name
[OPTIONS(model_option_list)]
[AS query_statement]
Create model options
Автоматические операции
● Подключение мощностей BigQuery
для построения модели
● Авто разбиения данных на
training и test
● Стандартизация числовых
параметров
● One-hot encoding строковых
параметров
На стороне пользователя
● L1/L2 регяляризция
●
● 3 стратегии для training/test:
Random, Sequential, Custom
● Установка learning rate
CREATE MODEL example
CREATE MODEL
`mydataset.mymodel`
OPTIONS
( model_type='logistic_reg',
auto_class_weights=true,
data_split_method='seq',
data_split_eval_fraction=0.3,
data_split_col='timestamp' ) AS
SELECT
column1, column2, column3, timestamp, label
FROM
`mydataset.mytable`
CREATE MODEL results
ML.EVALUATE syntax
ML.EVALUATE(MODEL model_name
[, {TABLE table_name | (query_statement)}]
[, STRUCT(<T> AS threshold)])
ML.EVALUATE example
SELECT
*
FROM
ML.EVALUATE(MODEL `mydataset.mymodel`,
(
SELECT
custom_label,
column1,
column2
FROM
`mydataset.mytable`),
STRUCT(0.55 AS threshold))
ML.EVALUATE results
ML.ROC_CURVE
ML.ROC_CURVE(MODEL model_name,
{TABLE table_name | (query_statement)},
[GENERATE_ARRAY(thresholds)])
SELECT
*
FROM
ML.ROC_CURVE(MODEL `mydataset.mymodel`,
TABLE `mydataset.mytable`)
ML.ROC_CURVE results
Model evaluation
ML.PREDICT syntax
ML.PREDICT(MODEL model_name,
{TABLE table_name | (query_statement)}
[, STRUCT<threshold FLOAT64> settings)])
ML.PREDICT example
SELECT
*
FROM
ML.PREDICT(MODEL `mydataset.mymodel`,
(
SELECT
label,
column1,
column2
FROM
`mydataset.mytable`))
ML.PREDICT results
Model and feature inspection functions
ML.WEIGHTS
ML.FEATURE_INFO
ML.TRAINING_INFO
Pros & Cons
● Ниже порог входа для аналитика
● Обработка больших объемов данных
внутри BQ
● Отсутствие необходимости в
препроцессинге данных
● Простой механизм развертывания
● Интеграция c большим количеством
инструментов для визуализации
● Цена за CREATE MODEL
● Реализованы только 2 модели
● Нет кросс валидации
● Нельзя выбрать метрику для
оптимизации
● Есть ощущение Black Box
Заключение
BigQuery ML в OWOX
Подготовка и чистка данных
Ipython Notebook
85% времени
Обучение и тестирование Развертывание модели
Google BigQuery
13% времени
Google BigQuery
2% времени
Почему нам зашел BigQuery ML
● Все данные в Google BigQuery
● Помещаемся в бесплатный Tier
● В команде нет специализации Data Science
● Каждый из нас SQL ninja
● Улучшение точности результата на 1% нерентабельно
● Можно использовать мощности GCP для обучения и теста
● Не нужно ничего разворачивать в production
Норм! И ML и все
понятно!
Всем BQ ML!
Next Steps
● cloud.google.com/bigquery
● coursera.org/learn/data-insights-gcp-apply-ml
● cloud.google.com/bigquery/docs/bigqueryml-analyst-start
Прогнозирование на SQL с помощью GBQ ML

Contenu connexe

Similaire à Прогнозирование на SQL с помощью GBQ ML

Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...
Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...
Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...Маркетинг-аналитика с OWOX BI
 
Как разобраться со своими данными, если ты не аналитик
Как разобраться со своими данными, если ты не аналитикКак разобраться со своими данными, если ты не аналитик
Как разобраться со своими данными, если ты не аналитикNetpeak
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleNetpeak
 
Бизнес-аналитика – не роскошь, а средство для принятия решений:
Бизнес-аналитика – не роскошь, а средство для принятия решений:Бизнес-аналитика – не роскошь, а средство для принятия решений:
Бизнес-аналитика – не роскошь, а средство для принятия решений:TechExpert
 
iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает
iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает
iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает Artyom Tsiplakov
 
Аналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знаетАналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знаетiMetrics
 
QlikView Conference Minsk 2014 A2 Consulting
QlikView Conference Minsk 2014 A2 ConsultingQlikView Conference Minsk 2014 A2 Consulting
QlikView Conference Minsk 2014 A2 Consultinga2consulting
 
Аналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знаетАналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знаетOWOX
 
13 расширенные возможности корпоративных приложений, основы субд
13 расширенные возможности корпоративных приложений, основы субд13 расширенные возможности корпоративных приложений, основы субд
13 расширенные возможности корпоративных приложений, основы субдKewpaN
 
Delta dudkin ekbpromo_kazan
Delta dudkin ekbpromo_kazanDelta dudkin ekbpromo_kazan
Delta dudkin ekbpromo_kazanekbpromo
 
Преимущества google analytics 360 для ecommerce проектов
Преимущества google analytics 360 для ecommerce проектовПреимущества google analytics 360 для ecommerce проектов
Преимущества google analytics 360 для ecommerce проектовAlina Uvarova
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоBranchMarketing
 
SAP BusinessObjects 4.1 Web Intelligence Report Development
SAP BusinessObjects 4.1 Web Intelligence Report DevelopmentSAP BusinessObjects 4.1 Web Intelligence Report Development
SAP BusinessObjects 4.1 Web Intelligence Report DevelopmentDmitry Anoshin
 
Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014
Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014
Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014OWOX
 
Автоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft AzureАвтоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft AzureWebSoft
 
Как избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данныхКак избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данныхМаркетинг-аналитика с OWOX BI
 

Similaire à Прогнозирование на SQL с помощью GBQ ML (20)

Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...
Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...
Автоматизация отчетов: как оперативно обновлять данные и отслеживать важные п...
 
Как разобраться со своими данными, если ты не аналитик
Как разобраться со своими данными, если ты не аналитикКак разобраться со своими данными, если ты не аналитик
Как разобраться со своими данными, если ты не аналитик
 
Анализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов GoogleАнализ больших данных с помощью инструментов Google
Анализ больших данных с помощью инструментов Google
 
Бизнес-аналитика – не роскошь, а средство для принятия решений:
Бизнес-аналитика – не роскошь, а средство для принятия решений:Бизнес-аналитика – не роскошь, а средство для принятия решений:
Бизнес-аналитика – не роскошь, а средство для принятия решений:
 
Сравнение инструментов для построения отчетов
Сравнение инструментов для построения отчетовСравнение инструментов для построения отчетов
Сравнение инструментов для построения отчетов
 
iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает
iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает
iMetrics 2012. Андрей Суховой - OWOX. Аналитика для тех, кто и так все знает
 
Аналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знаетАналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знает
 
QlikView Conference Minsk 2014 A2 Consulting
QlikView Conference Minsk 2014 A2 ConsultingQlikView Conference Minsk 2014 A2 Consulting
QlikView Conference Minsk 2014 A2 Consulting
 
Аналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знаетАналитика для тех, кто и так все знает
Аналитика для тех, кто и так все знает
 
Визуализация отчетов с помощью Data Studio и Power BI
Визуализация отчетов с помощью Data Studio и Power BIВизуализация отчетов с помощью Data Studio и Power BI
Визуализация отчетов с помощью Data Studio и Power BI
 
SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
13 расширенные возможности корпоративных приложений, основы субд
13 расширенные возможности корпоративных приложений, основы субд13 расширенные возможности корпоративных приложений, основы субд
13 расширенные возможности корпоративных приложений, основы субд
 
Delta dudkin ekbpromo_kazan
Delta dudkin ekbpromo_kazanDelta dudkin ekbpromo_kazan
Delta dudkin ekbpromo_kazan
 
Преимущества google analytics 360 для ecommerce проектов
Преимущества google analytics 360 для ecommerce проектовПреимущества google analytics 360 для ecommerce проектов
Преимущества google analytics 360 для ecommerce проектов
 
AlgoMost: about
AlgoMost: aboutAlgoMost: about
AlgoMost: about
 
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь ОстюченкоПовышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
Повышение эффективности сайта средствами веб-аналитики. Игорь Остюченко
 
SAP BusinessObjects 4.1 Web Intelligence Report Development
SAP BusinessObjects 4.1 Web Intelligence Report DevelopmentSAP BusinessObjects 4.1 Web Intelligence Report Development
SAP BusinessObjects 4.1 Web Intelligence Report Development
 
Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014
Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014
Флакс Владислав и Суховой Андрей. OWOX. Workshop. Конференция Аnalyze! 2014
 
Автоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft AzureАвтоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft Azure
 
Как избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данныхКак избежать ошибок, которые приводят к неточности маркетинговых данных
Как избежать ошибок, которые приводят к неточности маркетинговых данных
 

Plus de HOWWEDOIT

GCP для работы с большими данными
GCP для работы с большими даннымиGCP для работы с большими данными
GCP для работы с большими даннымиHOWWEDOIT
 
Как боты помогают Monobank обслуживать более 800 тысяч клиентов
Как боты помогают Monobank обслуживать более 800 тысяч клиентовКак боты помогают Monobank обслуживать более 800 тысяч клиентов
Как боты помогают Monobank обслуживать более 800 тысяч клиентовHOWWEDOIT
 
Difficulties of implementing AI Features to an established product company
Difficulties of implementing AI Features to an established product companyDifficulties of implementing AI Features to an established product company
Difficulties of implementing AI Features to an established product companyHOWWEDOIT
 
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об..."Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об...HOWWEDOIT
 
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...HOWWEDOIT
 
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...HOWWEDOIT
 
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...HOWWEDOIT
 
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...HOWWEDOIT
 
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....HOWWEDOIT
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминHOWWEDOIT
 
Подход и инструменты измерения эффективности процесса разработки или как держ...
Подход и инструменты измерения эффективности процесса разработки или как держ...Подход и инструменты измерения эффективности процесса разработки или как держ...
Подход и инструменты измерения эффективности процесса разработки или как держ...HOWWEDOIT
 
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук HOWWEDOIT
 
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....HOWWEDOIT
 
метрики ценообразования как интернет магазины используют цены конкурентов.але...
метрики ценообразования как интернет магазины используют цены конкурентов.але...метрики ценообразования как интернет магазины используют цены конкурентов.але...
метрики ценообразования как интернет магазины используют цены конкурентов.але...HOWWEDOIT
 
Визуализируй меня полностью. Павел Лоба.
Визуализируй меня полностью. Павел Лоба.Визуализируй меня полностью. Павел Лоба.
Визуализируй меня полностью. Павел Лоба.HOWWEDOIT
 

Plus de HOWWEDOIT (15)

GCP для работы с большими данными
GCP для работы с большими даннымиGCP для работы с большими данными
GCP для работы с большими данными
 
Как боты помогают Monobank обслуживать более 800 тысяч клиентов
Как боты помогают Monobank обслуживать более 800 тысяч клиентовКак боты помогают Monobank обслуживать более 800 тысяч клиентов
Как боты помогают Monobank обслуживать более 800 тысяч клиентов
 
Difficulties of implementing AI Features to an established product company
Difficulties of implementing AI Features to an established product companyDifficulties of implementing AI Features to an established product company
Difficulties of implementing AI Features to an established product company
 
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об..."Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
"Оптимальные цены", или как повысить розничные продажи с помощью машинного об...
 
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
Построение ROPO отчетов. Или как оценить вклад он-лайн рекламы в офф-лайн про...
 
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
Лайфхаки построения мощной продуктовой sales-команды. Катерина Мартынова, Pre...
 
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
Кастомные решения, best practices для управления и увеличения продаж. Олег Бе...
 
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
Продвинутые методики продуктовых отделов продаж с практическими примерами. Ан...
 
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
Багаті спадкоємці, або як робити рефакторинг у продукті з бурхливою історією....
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
 
Подход и инструменты измерения эффективности процесса разработки или как держ...
Подход и инструменты измерения эффективности процесса разработки или как держ...Подход и инструменты измерения эффективности процесса разработки или как держ...
Подход и инструменты измерения эффективности процесса разработки или как держ...
 
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
Что база транзакций может рассказать о здоровье вашего бизнеса. Павел Левчук
 
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
Построение и переход на новую аналитическую платформу. Цели, вызовы, решения....
 
метрики ценообразования как интернет магазины используют цены конкурентов.але...
метрики ценообразования как интернет магазины используют цены конкурентов.але...метрики ценообразования как интернет магазины используют цены конкурентов.але...
метрики ценообразования как интернет магазины используют цены конкурентов.але...
 
Визуализируй меня полностью. Павел Лоба.
Визуализируй меня полностью. Павел Лоба.Визуализируй меня полностью. Павел Лоба.
Визуализируй меня полностью. Павел Лоба.
 

Прогнозирование на SQL с помощью GBQ ML

  • 1.
  • 2. 1. Внедряем Google Analytics 360 Suite и Google BigQuery В проектах наших клиентов более 2 млн транзакций в неделю 2. Разрабатываем сервисы OWOX BI Работают в Google Cloud Platform и им доверяют более 5000 компаний во всем мире 3. Проводим профессиональные мероприятия 4. НЕ продаем рекламу
  • 3. ● Web-analytics setup ● Ad-hoc reports ● Dashboards ● Data engineering ● Web scraping ● Integrations ● Automation ● A/B testing ● Forecasting ● DW administration ● Researching ● Analysis Product Analyst в OWOX
  • 6. Необходимо понять, кому из лидов, какой пакет подходит лучше всего Это нужно, чтобы: ● Предложить клиенту самое подходящее решение ● Приоритезировать лидов для Sales Задача
  • 7. Пусть будет ML, но чтобы все интерпретировалось понятно
  • 11. 1. Понимание предметной области 2. Наличие валидных данных для обучения 3. Знание Python или R 4. Понимание принципов работы алгоритмов классификации 5. Preprocessing данных 6. Развертывание обученной модели Открытые вопросы
  • 13. ML для всех в Google Cloud Platform Developer SQL Analyst Data Scientist Use cases and skills TensorFlow and CloudML Engine ● Build and deploy state-of-art custom models ● Requires deep understanding of ML and programming BigQuery ML ● Build and deploy custom models using SQL ● Requires only basic understanding of ML AutoML and CloudML APIs ● Build and deploy Google-provided models for standard use cases ● Requires almost no ML knowledge
  • 14. Google BigQuery Надежность и безопасность SQL + UDF (JavaScript) Скорость и легкость масштабирования Fully Managed, Zero-Ops Data Warehouse
  • 15.
  • 16. Новый подход в работе с данными Data Warehouses From 1st-gen EDWs, increased data collection and analysis has helped build more data-driven businesses BI Foundations Data warehousing formed the foundation of reporting and Business Intelligence BigQuery BigQuery represents a fundamentally different approach to Cloud data warehousing 00’s Now ML Foundations Making BigQuery ML the foundation for organizations that will leverage machine intelligence in their businesses Next90’s
  • 17. Алгоритм работы с BigQuery ML BigQuery Machine Learning using BigQuery ML Data Collection Connect with Sales, Marketing and Ads systems Report through BI platforms - Data Studio, Looker, etc. Predictions Model re-training
  • 18. Основные возможности BQ ML ● StandardSQL and UDFs within the ML queries ● Linear regression ● Binary logistic regression (classification) ● Multiclass logistic regression (up to 50 unique values) ● Model evaluation functions (Accuracy, MAE, MSE, ROC AUC, etc.) ● Model weight inspection ● Feature distribution analysis through standard functions
  • 19. 3 основные метода в BigQuery ML ML.PREDICT ML.EVALUATE CREATE MODEL
  • 20. CREATE MODEL syntax CREATE MODEL model_name [OPTIONS(model_option_list)] [AS query_statement]
  • 21. Create model options Автоматические операции ● Подключение мощностей BigQuery для построения модели ● Авто разбиения данных на training и test ● Стандартизация числовых параметров ● One-hot encoding строковых параметров На стороне пользователя ● L1/L2 регяляризция ● ● 3 стратегии для training/test: Random, Sequential, Custom ● Установка learning rate
  • 22. CREATE MODEL example CREATE MODEL `mydataset.mymodel` OPTIONS ( model_type='logistic_reg', auto_class_weights=true, data_split_method='seq', data_split_eval_fraction=0.3, data_split_col='timestamp' ) AS SELECT column1, column2, column3, timestamp, label FROM `mydataset.mytable`
  • 24. ML.EVALUATE syntax ML.EVALUATE(MODEL model_name [, {TABLE table_name | (query_statement)}] [, STRUCT(<T> AS threshold)])
  • 27. ML.ROC_CURVE ML.ROC_CURVE(MODEL model_name, {TABLE table_name | (query_statement)}, [GENERATE_ARRAY(thresholds)]) SELECT * FROM ML.ROC_CURVE(MODEL `mydataset.mymodel`, TABLE `mydataset.mytable`)
  • 30. ML.PREDICT syntax ML.PREDICT(MODEL model_name, {TABLE table_name | (query_statement)} [, STRUCT<threshold FLOAT64> settings)])
  • 33. Model and feature inspection functions ML.WEIGHTS ML.FEATURE_INFO ML.TRAINING_INFO
  • 34. Pros & Cons ● Ниже порог входа для аналитика ● Обработка больших объемов данных внутри BQ ● Отсутствие необходимости в препроцессинге данных ● Простой механизм развертывания ● Интеграция c большим количеством инструментов для визуализации ● Цена за CREATE MODEL ● Реализованы только 2 модели ● Нет кросс валидации ● Нельзя выбрать метрику для оптимизации ● Есть ощущение Black Box
  • 36. BigQuery ML в OWOX Подготовка и чистка данных Ipython Notebook 85% времени Обучение и тестирование Развертывание модели Google BigQuery 13% времени Google BigQuery 2% времени
  • 37. Почему нам зашел BigQuery ML ● Все данные в Google BigQuery ● Помещаемся в бесплатный Tier ● В команде нет специализации Data Science ● Каждый из нас SQL ninja ● Улучшение точности результата на 1% нерентабельно ● Можно использовать мощности GCP для обучения и теста ● Не нужно ничего разворачивать в production
  • 38. Норм! И ML и все понятно!
  • 40. Next Steps ● cloud.google.com/bigquery ● coursera.org/learn/data-insights-gcp-apply-ml ● cloud.google.com/bigquery/docs/bigqueryml-analyst-start