1. Применение Big Data в
маркетинге
к.ф.-м.н. Евгений Николаевич Павловский,
Зав.лаб. Аналитики потоковых данных и машинного обучения НГУ-Экспасофт
Директор по развитию Экспасофт
2. 2010 - …
ООО "Экспасофт"
ООО "Исследовательские системы"
ЭКСПАСОФТ
1999 - 2003
Выпускники НГУ
(к.ф.-м.н.)
2003 - 2011
ИМ СО РАН, лаборатория анализа данных
История создания
2015 - …
Лаборатория аналитики потоковых данных и машинного обучения НГУ
26. Спасибо за внимание!
• Евгений Николаевич
Павловский, к.ф.-м.н.
• зав. лабораторией аналитики
потоковых данных и
машинного обучения НГУ -
Экспасофт
• e@expasoft.ru
• http://bigdata.nsu.ru
Notes de l'éditeur
Исторически, компания Экспасофт выделилась из лаборатории анализа данных Института математики им. С.Л. Соболева СО РАН и с момента своего основания остается в поле технологий связанных с решением машинными методами интеллектуальных задач.
Технологический стек компании:
Artificial Intelligence: Python (Scikit learn, Numpy, Pandas), R (Revolution R), Azure ML, SPSS Climentine, Knime, Vowpal wabbit
Deep learning: CNN, LSTM, DNN, Café, Theano, Tensor flow
Natural Language Processing: Rule based, Bag of words, TFIDF, Latent semantic analysis, Word2vec, Doc2vec
Big Data: Spark, Hadoop, MlLib, AWS (Redshift)
В рамках совместно Франко-Российского проекта была разработана технология автоматической персонификации вебсайтов в соответствии с индивидуальными предпочтениями и особенностями восприятия посетителей.
Алгоритм персонификации в автономном режиме «24/7/365» изучает трафик вебсайта путем внесения точечных изменений на уровне дизайна, контента и функционала отдельных страниц сайта. Цель изучения – поиск оптимальных стратегий воздействия на посетителей в направлении максимизации заданной метрики конверсионного отклика.
Помимо графика отражающего общий рост конверсии, результат работы алгоритма представим в виде сегментации клиентов по группам характеризующимся едиными покупательскими пристрастиями. Каждый сегмент описывается объективными характеристиками, доступными для наблюдения: пол, возраст, достаток, семейное положение и т.д. Для каждого сегмента сформирована оптимальная стратегия воздействия.
Биг Дата как инструмент по повышению лояльности и удержанию клиентов. Прогнозирование возможного ухода клиентов - как они могут уйти и почему? Нацеливание маркетинговых усилий по удержанию клиентов на выявленные группы риска. Выявление лидеров мнений, принятие оперативных решений для предложения индивидуальных условий обслуживания для лидеров мнений - создание авторитетов бренда/продукта/компании.
аспознавание посетителей – клиент, повторно пришедший в магазин и прошедший
перед камерой, распознается с помощью облачного сервиса. Соответствующее
уведомление поступает оператору. Позволяет выстраивать систему лояльности.
Системы распознавания лиц решают две задачи:
задача верификации
задача идентификации
Задача верификации заключается в сравнении двух фотографий с целью понять, являются ли запечатленные на них люди одним и тем же человеком или это фотографии разных людей (one-to-one). Зачастую данная задача возникает в системах охраны, когда необходимо понять является ли человек тем, за кого себя выдает.
Задача идентификации заключается в понимании, кто именно из заданного набора персон запечатлен на данной фотографии (one-to-many). Задача идентификации является технически более сложной, т.к. это задача многоклассовой классификации.
Пример решения пары «классических» задач распознавания образов, близко сопряженных с распознаванием лиц – определение пола и возраста человека по фотографии:
точность распознавания пола близка к 95%
машинное определение возраста работает в пределах допусков в 7 лет для людей среднего возраста
Биг Дата как инструмент мониторинга и анализа мнений потребителей о компании/продукте/бренде. Выявление упоминаний названия компании, продукта или бренда в сети: блогах, соц сетях, форумах оценка отклика: негативный/позитивный, принятие решения для оперативного реагирования.
Если для продвижения товаров используются различные рекламные каналы, важно понимать:
объем продаж инициированных каждым каналом
рентабельность каналов продаж
как уровень продаж зависит от распределения рекламного бюджета между различными каналами
Получить ответы на эти вопросы можно путем сопоставления наблюдаемых объемов продаж изменениям которым подвергались рекламные бюджеты.
На основании истории прохода посетителей через кассы в супермаркете решалась задача прогнозирования ежедневного количества покупателей. Прогнозная модель учитывала время суток, день недели, праздничный/не праздничный день. Ошибка предсказания составила 5%.
В рамках международного соревнования анализировались данные о том, сколько книг того или иного жанра было продано в разных магазинах торговой сети в течение года. Данные содержали число книг каждого из 1856 жанров, проданных в течение года в том или ином магазине.
Цель анализа – понять необходимый объем поставок книг определенного жанра в каждый магазин.
В конкурсе изъявили желание участвовать 618 команд из 164 организаций 42 стран, 231 команда решила эту задачу и прислала свои результаты, 49 команд преодолели порог приемлемых результатов, установленный организаторами. Среднее количество ошибок на одно предсказываемое значение у разных команд колебалось от 0.89 до 100.22. Наша команда в среднем сделала 0.95 ошибки на прогноз и заняла 4 место.
Получено решение задачи автоматической идентификации изображений бланков документов, относящихся к следующим классам:
паспорт гражданина РФ
заграничный паспорт гражданина РФ
страховое свидетельство обязательного пенсионного страхования
водительское удостоверение
свидетельство о регистрации ТС
На базе технологии глубоких нейронных сетей создано решение, позволяющее детектировать на изображении наличие людей и транспортных средств с точностью порядка 95%.
Реализована технология идентификации аудио-событий.
С высокой степенью достоверности (не менее 98%) распознаются:
крик ребенка
лай собаки
звон разбитого стекла
выстрел
пожарная сирена
Была разработана компьютерная технология 3D-моделирования имплантатов для проведения реконструктивных операций на костях лицевого и мозгового отделов черепа.
Решение задачи было получено путем обучения стека глубоких нейронных сетей восстановлению изображений черепов, что позволило создать полностью автоматический процесс моделирования не требующий участия человека. Формируемые модели имплантата распечатываются на 3D-принтере.
Компания Экспасофт проводит очное обучение анализу больших данных.
Курс даёт знания из области анализа данных, машинного обучения, бизнес-анализа. Разбираются кейсы по движкам рекомендаций, обработки серверных логов, кредитному скорингу и интеграции данных (ETL).
Затрагиваются все аспекты анализа данных: математический, аналитический, инженерный и управленческий. Курс рассчитан на инженеров, программистов, маркетологов, базовиков и аналитиков.
Процесс учебы включает в себя проработку проекта больших данных для собственной компании ученика под руководством опытных специалистов.
Выпускники курса, способны определять выгоды анализа больших данных для собственной компании, овладевают практичными алгоритмами (RandomForest, Naïve Bayesian, Boosting, Bagging, DT, SVM, kNN и др.), обучены использовать Python для анализа данных и текстов (Pandas, SciPy, NumPy, PyMorphy, NLTK), овладеете средами (Tableau, Orange), могут интегрировать большие потоки данных и работать с ними через Hadoop.
Академпарк, ИТ-центрООО “Экспасофт”ул. Николаева, 11, офис 707г. Новосибирск, 630090
Тел: +7-923-227-49-97
email: v@expasoft.ru
Часть технологий, приведенных в презентации, оформлена в виде демонстрационного стенда, доступного по адресу: https://expasoft.com/services/