Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Прогнозирование на SQL с помощью GBQ ML

58 vues

Publié le

В своей презентации Павел Лоба, Head of Product | OWOX, поделился инсайдами как BigQuery ML используется в OWOX.

Publié dans : Données & analyses
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Прогнозирование на SQL с помощью GBQ ML

  1. 1. 1. Внедряем Google Analytics 360 Suite и Google BigQuery В проектах наших клиентов более 2 млн транзакций в неделю 2. Разрабатываем сервисы OWOX BI Работают в Google Cloud Platform и им доверяют более 5000 компаний во всем мире 3. Проводим профессиональные мероприятия 4. НЕ продаем рекламу
  2. 2. ● Web-analytics setup ● Ad-hoc reports ● Dashboards ● Data engineering ● Web scraping ● Integrations ● Automation ● A/B testing ● Forecasting ● DW administration ● Researching ● Analysis Product Analyst в OWOX
  3. 3. Предыстория
  4. 4. Как продается OWOX BI
  5. 5. Необходимо понять, кому из лидов, какой пакет подходит лучше всего Это нужно, чтобы: ● Предложить клиенту самое подходящее решение ● Приоритезировать лидов для Sales Задача
  6. 6. Пусть будет ML, но чтобы все интерпретировалось понятно
  7. 7. Такое...
  8. 8. Задача мультиклассовой классификации
  9. 9. Задача мультиклассовой классификации Basic Business Enterprise (not set)
  10. 10. 1. Понимание предметной области 2. Наличие валидных данных для обучения 3. Знание Python или R 4. Понимание принципов работы алгоритмов классификации 5. Preprocessing данных 6. Развертывание обученной модели Открытые вопросы
  11. 11. BigQuery ML
  12. 12. ML для всех в Google Cloud Platform Developer SQL Analyst Data Scientist Use cases and skills TensorFlow and CloudML Engine ● Build and deploy state-of-art custom models ● Requires deep understanding of ML and programming BigQuery ML ● Build and deploy custom models using SQL ● Requires only basic understanding of ML AutoML and CloudML APIs ● Build and deploy Google-provided models for standard use cases ● Requires almost no ML knowledge
  13. 13. Google BigQuery Надежность и безопасность SQL + UDF (JavaScript) Скорость и легкость масштабирования Fully Managed, Zero-Ops Data Warehouse
  14. 14. Новый подход в работе с данными Data Warehouses From 1st-gen EDWs, increased data collection and analysis has helped build more data-driven businesses BI Foundations Data warehousing formed the foundation of reporting and Business Intelligence BigQuery BigQuery represents a fundamentally different approach to Cloud data warehousing 00’s Now ML Foundations Making BigQuery ML the foundation for organizations that will leverage machine intelligence in their businesses Next90’s
  15. 15. Алгоритм работы с BigQuery ML BigQuery Machine Learning using BigQuery ML Data Collection Connect with Sales, Marketing and Ads systems Report through BI platforms - Data Studio, Looker, etc. Predictions Model re-training
  16. 16. Основные возможности BQ ML ● StandardSQL and UDFs within the ML queries ● Linear regression ● Binary logistic regression (classification) ● Multiclass logistic regression (up to 50 unique values) ● Model evaluation functions (Accuracy, MAE, MSE, ROC AUC, etc.) ● Model weight inspection ● Feature distribution analysis through standard functions
  17. 17. 3 основные метода в BigQuery ML ML.PREDICT ML.EVALUATE CREATE MODEL
  18. 18. CREATE MODEL syntax CREATE MODEL model_name [OPTIONS(model_option_list)] [AS query_statement]
  19. 19. Create model options Автоматические операции ● Подключение мощностей BigQuery для построения модели ● Авто разбиения данных на training и test ● Стандартизация числовых параметров ● One-hot encoding строковых параметров На стороне пользователя ● L1/L2 регяляризция ● ● 3 стратегии для training/test: Random, Sequential, Custom ● Установка learning rate
  20. 20. CREATE MODEL example CREATE MODEL `mydataset.mymodel` OPTIONS ( model_type='logistic_reg', auto_class_weights=true, data_split_method='seq', data_split_eval_fraction=0.3, data_split_col='timestamp' ) AS SELECT column1, column2, column3, timestamp, label FROM `mydataset.mytable`
  21. 21. CREATE MODEL results
  22. 22. ML.EVALUATE syntax ML.EVALUATE(MODEL model_name [, {TABLE table_name | (query_statement)}] [, STRUCT(<T> AS threshold)])
  23. 23. ML.EVALUATE example SELECT * FROM ML.EVALUATE(MODEL `mydataset.mymodel`, ( SELECT custom_label, column1, column2 FROM `mydataset.mytable`), STRUCT(0.55 AS threshold))
  24. 24. ML.EVALUATE results
  25. 25. ML.ROC_CURVE ML.ROC_CURVE(MODEL model_name, {TABLE table_name | (query_statement)}, [GENERATE_ARRAY(thresholds)]) SELECT * FROM ML.ROC_CURVE(MODEL `mydataset.mymodel`, TABLE `mydataset.mytable`)
  26. 26. ML.ROC_CURVE results
  27. 27. Model evaluation
  28. 28. ML.PREDICT syntax ML.PREDICT(MODEL model_name, {TABLE table_name | (query_statement)} [, STRUCT<threshold FLOAT64> settings)])
  29. 29. ML.PREDICT example SELECT * FROM ML.PREDICT(MODEL `mydataset.mymodel`, ( SELECT label, column1, column2 FROM `mydataset.mytable`))
  30. 30. ML.PREDICT results
  31. 31. Model and feature inspection functions ML.WEIGHTS ML.FEATURE_INFO ML.TRAINING_INFO
  32. 32. Pros & Cons ● Ниже порог входа для аналитика ● Обработка больших объемов данных внутри BQ ● Отсутствие необходимости в препроцессинге данных ● Простой механизм развертывания ● Интеграция c большим количеством инструментов для визуализации ● Цена за CREATE MODEL ● Реализованы только 2 модели ● Нет кросс валидации ● Нельзя выбрать метрику для оптимизации ● Есть ощущение Black Box
  33. 33. Заключение
  34. 34. BigQuery ML в OWOX Подготовка и чистка данных Ipython Notebook 85% времени Обучение и тестирование Развертывание модели Google BigQuery 13% времени Google BigQuery 2% времени
  35. 35. Почему нам зашел BigQuery ML ● Все данные в Google BigQuery ● Помещаемся в бесплатный Tier ● В команде нет специализации Data Science ● Каждый из нас SQL ninja ● Улучшение точности результата на 1% нерентабельно ● Можно использовать мощности GCP для обучения и теста ● Не нужно ничего разворачивать в production
  36. 36. Норм! И ML и все понятно!
  37. 37. Всем BQ ML!
  38. 38. Next Steps ● cloud.google.com/bigquery ● coursera.org/learn/data-insights-gcp-apply-ml ● cloud.google.com/bigquery/docs/bigqueryml-analyst-start

×