1. Голограмма коллектива
Руководитель проекта магистерской программы
«Аналитика больших массивов данных» в НГУ
к.ф.-м.н. Павловский Евгений Николаевич
Директор по развитию «Экспасофт»
Открытый семинар по кейсам больших данных.
Или какая нам от этого польза?
2. Экспасофт
· 2010, ЛША
· «Исследовательские системы», 2011 – н.в.
· FRiS – уникальная методология анализа данных,
школа Н.Г. Загоруйко
· 18 проектов анализа данных: биоинформатика,
медицина, безопасность, нефтедобыча, финансы, ритейл,
облака, образование, криминалистика, маркетинг
· Услуги по анализу данных
4. Услуги Экспасофта
· Построение прогнозных моделей:
· прогнозирование биофизических свойств по аминокислотному составу белков
· алгоритм распознавания клиентов, которые воспользуются дополнительными услугами
только после коммуникации с ними
· прогнозирование экспрессии генов, связь транскрипционных факторов
· распознавание марок автомашин по фотографии
· прогнозирование нагрузки на сервера
· распознавание и идентификация посетителей сети магазинов
· скоринговая модель по микрокредитам
· Программное обеспечение:
· библиотека алгоритмов Expasoft FRiS Studio
· представление текста в виде сетевой модели, пополнение базы данных извлечёнными из
текстов сущностями и отношениями, поиск по сущностям и отношения
· Образование
7. 4V
· Volume
· Объём данных
· Velocity
· Скорость создания и обработки данных
· Variety
· Разнообразие источников и форм
хранения данных
· Value
· Ценность
13. Отказ от структурированности
N = всё
сбор данных впрок
не знаем, какие вопросы будем задавать
NoSQL - Not Only SQL: документо-ориентированные, ключ-значение
Отказ от структуры
Отказ от консистентности в пользу доступности или параллелизма
HDFS – Hadoop Distributed File System
Параллелизм обработки
Резервирование
14. Неперемещаемость
· идея использовать вычислительные мощности на месте хранения
· MapReduce
· Hadoop
· TeraData Hortonworks
· IBM BigInsights
· Cloudera
· Spark
· реально быстро!
· (см. Вымпелком (Сибирь): «Мониторинг параметров SLA для системы биллинга
реального времени »)
15. Новые источники достоверных
данных
· Сенсоры: прогноз Gartner - к 2020 году 90% всей информации будет между
устройствами.
· Социальные сети (скоринг по соц. профилю, RTB)
· Открытые данные: http://data.gov.ru/, http://data.mos.ru/
16. Сокращение сроков вычислений
· in-memory
· SAP HANA
· 256Tb RAM
· Oracle TimesTen
· Опыт в РФ
· СургутНефтегаз
· опыт перевода на SAP HANA (“Real-Time Enterprise 2.0: A Big ли Data?”)
· сокращение сроков формирования отчётов на порядки
· MapReduce
· Hadoop
17. Статистификация
· обращение к статистическим методам
· обращение к интеллектуальному анализу данных (Data Mining)
· поиск озарений (insights)
· неожиданные связи в данных
· скрытые закономерности
· отказ от причинности
19. Спрос
РЕАЛЬНЫЙ
· 1) Банковский сектор, скоринг
· 2) Real time bidding (RTB)
платформы
· 3) Микрофинансы
· 4) Ведомственные структуры
(РКН, МВД, ФСБ и др.) +
телекомы
· 5) Авиакопании
ОПАЗДЫВАЮЩИЙ
· 1) Медицина. Текущий этап:
сбор данных. Региональные
дата-центры. НИР.
2) Госуслуги. Рекомендации.
Оценка качества. СМЭВ. 300млрд.
Электронная Москва.
20. Маркетинговое "давление"
· 1) реклама и продвижение вендоров:
· Хард+софт: Oracle BigDataAlliance, IBM Netezza (BigInsights), SAP HANA, EMC
Pivotal HD
· 2) "вольные" евангелисты:
· В. Майер-Шёнбергер, Р. Смолан и др.
· 3) осознание возможностей BigData в обществе, подтверждающие примеры
· Статья в Nature (2008) аналогия "большая нефть" – "большие данные", Гугло-
машина, Сноуден
21. Реальные основания для "давления"
· Потенциальные рынки данных:
· Данные профилей Facebook, LinkedIn, MySpace, VK, Одноклассники и др.
· Данные поисковых запросов (Яндекс.Крипта, Google.Analytics и др.)
· Рыночные факторы:
· Снижение себестоимости хранения, вычислений
· Возможность получать "всю" информацию о явлении (богатство сенсоров)
· Отход от структурированности (NoSQL базы) и синхронности (отход от ACID)
· Уход в параллелизм (закон Мура перестал действовать)
23. •самая широкая аудитория (школьники, разработчики, бакалавры)
•средство привлечения из онлайн в офлайн
Онлайн-курсы
bit.ly/IntuitBDA
•вовлекаем в мобильность
•готовим для индустрии и для науки
Магистратура
bigdatansu.ru
•укрепление научных школАспирантура
•повышение квалификации в области обработки больших данных
Доп. Образование
expasoft.com/edu
Образовательная стратегия в Экспасофт
24. Орг-формы
ИППК или ЦДО НГУ
ГАУ «Центр» - межвуз. маг.
КА Сухорукова
Компетенции
ЦЕРН
Нейросети
ФЭЧ
ИЯФ
Спутники
Нейросети
Военка
ИАЭ
FRiS, оптим. алг,
онтологии,
логика
Распознавание
ИМ
Банки данных
CUDA, DNA
Биоинформатика
ИЦиГ, УНИПРО,
НПС
Архивы
Онтологии, логика
Информатика
ИСИ
СО РАН
ССКЦ
Информатика
ИВТ, ИВМиМГ
СОРМ
Сбор, хранение
Безопасность
Сигнатек
?
Безопасность
Безопасность
СИБ
Инициативы
Магистерская программа
Аспирантура
Краткосрочные курсы
СХД 1 Pb
Хранение
Кардиология,
Радиология
НИИПК
?
Хранение
Медицина
НИИТО
FRiS, оптим. алг,
онтологии, логика,
управление BDA
Безопасность,
медицина,
финансы, сервера
Экспасофт
Приборы
?
Унискан,
ТИОН
Игры
Slpunk
Игры
Alawar
МТС
Транзакции
Таргетинг
Eyeline
Банки
Транзакции
Финансы
ЦФТ
?
Вычисления,
хранение
ИЦКТ
Потребители
?
Обработка,
образование
Медицина,
биология,
физика, ИТ, и др.
НГУ
Карты
Геопространство
Карты
DataEast
25. Первый в России онлайн-курс по
Big Data Analytics
Загоруйко
Николай Григорьевич
Павловский Евгений
Николаевич
Борисова Ирина
Артёмовна
Аникин Юрий
Александрович
Зырянов Александр
Олегович
д. т. н., академик МАИ, профессор,
зав. лаб. анализа данных ИМ СО РАН
к.ф.-м.н., директор по развитию
«Экспасофт»
к.т.н., ассистент кафедры
общей информатики ФИТ
НГУ
к.т.н., преподаватель кафедры
общей информатики ФИТ НГУ
Data-аналитик,
ООО Экспасофт
Введение в
когнитивный анализ
данных
Введение в «большие
данные»
Области применения
больших данных
Основы языка R
Разработка
алгоритмов на
базе FRiS-
функции
Обзор технологий
хранения больших
данных
Программирование
на языке R
Инструменты Data
Mining
http://bit.ly/IntuitBDA
37. Выбор жены
Python для обработки анкет.
12 ложных своих анкет.
Боты для ответов на вопросы (чтобы увидеть ответы
просматриваемых). Забанили. Научил их вести себя по-
человечески. (Понаблюдал за другом, сымитировал его
поведение).
Через 3 недели получил 6 000 000 ответов от более чем
20 000 женщин.
Не спал ночами, отложил диссертацию.
Кластеризация K-Modes.
5000 анкет собрал для контроля.
Получилось 7 кластеров.
38. Выбор жены
· Понравилось два кластера. Создал и оптимизировал под них профили A и B.
· Text-mining двух кластеров - ключевые интересы.
· Бот для обхода страниц. Нашёл свою половину на 88-м свидании. Она написала.
39.
40. Навигация
· 1839 год. Мори Мэтью Фонтейн, ВМС
США, позже начальник архива морских
карт в Вашингтоне.
· «Датифицировал» архивы моряков.
· «Физическая география моря» в 1855
году
1. Карта навигации, короткие пути
(из Нью-Йорка к экватору вместо 40
суток только 24)
2. Потоки течений, океанография
3. Закладка трансатлантического
телеграфного кабеля
42. Восстановление данных фракционного
состава добываемой смеси
Данные:
· 3 исходных параметра ($10k)
· 3 целевых параметра ($200k)
· 5 участков данных
· Частота измерений – раз в минуту
· Всего 66052 измерения
12мм 13мм 11мм 12мм 13мм
50. Желтые и оранжевые автомобили реже
попадают в аварию
· реже всего в аварии попадают автомобили оранжевого,
желтого, коричневого и фиолетового цвета. Так, на общее
количество желтых машин, имеющих страховку, приходится
только 1% страховых возмещений, на автомобили оранжевого
цвета немного больше — 8%.
· одна из ведущих страховых компаний в России
· Часто в аварии попадают машины красных оттенков (в общем
количестве страховых возмещений по ДТП их доля составляет
62%)
· Объясняется это тем, что красный выбирают в основном водители
молодые, имеющий маленький водительский стаж.
· Другая возможная причина: красный цвет вызывает у человека
активизацию процессов, возбуждённость. Поэтому даже, если
владелец красного авто и едет спокойно и правила соблюдает,
надо быть внимательным к другим участникам дороги.
52. Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
извлечение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где хранятся
• в облаках
• на локальных машинах
• аналитические инструменты
• Splunk
• PreCog
• BigML
54. BigData-процесс в Вымпелкоме (2014)
«Фабрика идей»
•Формализация
•Анализ
•План
Фабрика
идей
•Источники
•Пилот
•Доработка
•Оценка
•Выпуск
решения
Реализация
•Актуальность
•Доступность
•Производительность
•Масштабируемость
•Работа с
инцидентами
Результат
55. Секретные ингредиенты от Билайна
· Инфраструктура для БД
· «Фабрика идей»
· Вовлечённость всех подразделений
· Команда, мотивированная на результат и открытия
· Соответствие потребностям бизнеса
· Получить быстрый результат
57. Зачем управленцам математика? - HBR
• Подучите азы регрессионного анализа,
статистического анализа и планирования
экспериментов
• Пройдите программу статистики для руководящих
работников или онлайновый курс обучения или
поучитесь у своих аналитиков, поработав с ними
вместе над проектами
• Обратиться к специалистам по планированию
экспериментов (поучаствовать в исследовании)
• Сотрудничайте с аналитиками подходящей
специализации
• Гипотезы
• формулируйте гипотезы
• принимайте решения на данных
• эксперимент
• Наладить контакты между аналитиками и всеми
службами (матричная организация) - чтобы были
коммуникации
• Сосредоточьтесь на начальной и конечной стадиях
• постановка задачи
• гипотезы
• донесение результатов до заинтересованных лиц
• Задавайте по ходу дела много вопросов
• больше деталей
• Создавайте культуру исследования, а не защиты
• поощрять идеи и критику
• исследовательский дух
• главное - докопаться до истины
• не мнения, а анализ и данные
http://bit.ly/HBRbigdata
58. Материалы для повышения
квалификации по направлению курса
· Видео лекции ШАД по машинному
обучению
· http://shad.yandex.ru/lectures/mac
hine_learning.xml
· Курс по большим данным на Интуит
· http://bit.ly/IntuitBDA
· Курс по озёрам данных
· https://educast.emc.com/learn/dat
a-lakes-for-big-data-may-june
Курсы на Coursera.org
· Introduction to Data Science
· https://www.coursera.org/course/datasci
· Machine Learning
· https://www.coursera.org/course/ml
· Probabilistic Graphical Models
· https://www.coursera.org/course/pgm
· Natural Language processing
· https://www.coursera.org/course/nlp
· Data Science Specialization – 9 курсов + проект
· Data Scientist’s Toolbox, R programming, Getting and Cleaning Data,
Exploratory Data Analysis, Reproducible Research, Statistical
Inference, Regression Models, Practical Machine Learning,
Developing Data Product, Capstone Project
· Core Concepts of Data Analysis
· https://www.coursera.org/course/datan
60. Курс «Аналитика больших данных для
бизнеса»
ПН ВТ СР ЧТ ПТ СБ ВС
10:00 – 11:20
18:00 – 19:20 18:00 – 19:20 11:30 – 13:00
19:30 – 21:00 19:30 – 21:00
• Диплом НГУ о повышении квалификации на 96 часов
• с 20 октября по 20 декабря
• Проектная работа над известными кейсами и кейсом вашей компании
62. Роли – голограмма коллектива
BA Кейсы
Проектный
цикл
Бизнес-
задачи
Бизнес-
модели
ML Алгоритмы Модели Критерии Техники
SE Python SciPy NumPy OWL
Tools MapReduce Tableau TextMining GreenPlum
DataScientist
CIO
Бизнес-
аналитик, дата-
аналитик
Разработчик
DBA
63. Научитесь делать
· Ставить задачи в области больших данных.
· Понимать и самостоятельно писать программы на языке Python.
· Работать в студии анализа данных Orange.
· Работать с Tableau (визуализация, представление данных).
· Представлять результаты анализа внутренним и внешним заказчикам.
64. Принесёте в компанию
· Новое понимание ролей всех участников процесса работы с большими
данными в компании, завязанное на общие цели.
· Ясное видение конкретных возможностей использования больших данных для
решения задач собственной компании.
· Предметные знания всех основных направлений машинного обучения.
· Понимание областей применения «джентельменского набора» алгоритмов
анализа данных.
· Понимание создания новых бизнес-моделей на основе данных
Знают как «Исследовательские системы»
Строго придерживаемся методов анализа данных
Прошли достаточно большой путь обкатки мат.методов для бизнеса и понимания проблем предприятий
Сформировали уникальную экспертизу по прогнозной аналитике
Третьей характеристикой выделяют разнообразие. Действительно, мы наблюдаем большое количество оцифрованной информации в виде каких-то документов, таблиц, баз данных, сайтов и т.п. Если базы данных достаточно понятны в машинной обработке, то XML (полуструктурированные данные) и текстовые документы (неструктурированная информация) представляют определённую проблему, т.к. для них таких нет универсальных методов таких, как SQL для СУБД. Если они и разрабатываются где-то, то ещё так не распространены. Основной проблемой в обработке неструктурированной информации представляется извлечение смыслов текстов, решению которой посвящено целое направление научных исследований (Semantic Web), в т.ч. в корпорациях Google и Яндекс. Есть и другие проблемы с обработкой неструктурированной информации, об этом позже.