Одна лекция из мира Big Data: тренды, кейсы и технологии
1. Big Data:
тренды, кейсы и
технологии
Павловский Евгений Николаевич, к.ф.-м.н.,
научный сотрудник НГУ
директор ООО Исследовательские системы
(xpss.ru)
2. Вопросы?
• кто разогревает рынок?
• личное
•
•
•
как это относится ко мне?
как я могу это использовать?
как это повлияет на меня и на моѐ будущее?
• общественное
•
•
•
•
•
•
как это полезно обществу?
что полезного для моего департамента
на какие целевые показатели можно повлиять
кто этим может заниматься?
как определить, что он(а) может заниматься BigData?
как это повлияет на общество?
3. Что для нас BigData?
тренд, меняющий мир
высокие ожидания
есть и положительные прогнозы
возможности, которых ранее не было
(персональные советчики, Google Now)
4. Big Data: что это на самом деле?
• вычисления на узлах, где данные собраны
кибербезопасность
хранилища
жизненный цикл данных
передача данных, политики,
системы хранения данных
создание (в т.ч. автоматическое)
контроль
облака
обработка
как обрабатывать?
EMC
анализ
контуры данных
оборот
систематизация
контроль за
Oracle
озарения
копированием
IBM
визуализация
права доступа
Amazon
отчѐты
утечки
один админ на 10000
уничтожение
шифрование/дешифрование
потоки данных
виртуальных
захоронения, как ядерные
коммуникации
Cloudera
отходы
человек-человек
хранить уже дорого
хранить дорого
человек-компьютер-человек
зачем столько собираем?
а что хранить, что
человек-компьютер
удалять?
компьютер-человек (напоминалки, автодозвон )
готовые технологии
компьютер-компьютер
обработки
пропускная способность
Google FS
ограничивающий фактор
Hadoop
5.
6. Что такое Big Data?
Volume
1Gb,
1Tb, 1Pb, 1Exb, 1 ZettaByte
Variety
DB, XML, Logs,
Texts (.doc, .xls, .ppt …), Audio, Video
Value
$5 за Ваш профиль в FaceBook
Кросс-продажи (пиво с памперсами)
$3M Интел сэкономил на тестировании Intel Core, в 2014 сэкономит
$30M
9. Ценность (Value)
• прогнозы McKinsey Global Institute
(2011)
• $300млрд. в год экономии на
Американском здравоохранении
• US Private Sector
• рост операционной прибыли на
60%
• Europe admin savings
• $149млрд. экономии бюджета
• Замена человека или поддержка в
принятии решений с помощью
алгоритмов
• Уменьшение неэффективных затрат
• Прозрачность
• Повышение производительности при
экспериментах над данными
• Повышение ROI для IT-инвестиций
• Улучшение принятия решений и
операционной аналитики
• Предоставление прогнозных
возможностей
• Снижение угроз безопасности и
преступлений
• Новые бизнес-модели и сервисы для
заинтересованных лиц
10.
11.
12.
13. Кейс: противодействие
мошенничеству
В течение года (2011) мошенники нанесли ущерб 34% компаний и
организаций, попавших в поле зрение агентства
(PricewaterhouseCoopers). В России этот показатель ещѐ выше — 37%,
причѐм в 60% случаев убытки превышали $100 тыс.
Финансовая индустрия теряет на мошеннических транзакциях около $80
млрд в год
Visa анализирует до 50 петабайтов данных. До 500 особенностей каждой
транзакции.
За год система останавливает мошеннические платежи на сумму
примерно $2 млрд в год.
14. Кейс: выборы Обамы 2012
During the 1,5 year prior to the Election Day in November 2012 in total over $
1.5 billion was collected and spent during the Obama campaign. In addition,
over 1.000 paid staff worked on the campaign, well over 10.000s volunteers
and in total more than 100 data analysis who ran more than 66,000 computer
simulations every day. The objective of the campaign set out by Jim Messina
was to “measure everything”. The idea was to demand data on everything
that happened during the campaign in order to measure everything and
ensure that they were being smart about everything.
15. Data Science & Engineering
• кандидаты и доктора физ-мат и тех наук
• максимум $300тыс. в год
• не руководя никем
• в Томске предлагают $5000 в месяц
• в НГУ
• открывается магистратура по подготовке на
английском языке
• планируется открывать доп.образование
• и отдельные 2-4 недельные курсы
компетенции
программирование
скрипты (Python, Ruby)
UNIX
функциональное программирование
базы данных
сложные и долговременные запросы
Google Big Table
key-value databases
понимание проблем бизнеса
кибер-безопасность
юридические аспекты
методы искусственного интеллекта
алгоритмы
нейронные сети
теории
модели
математика
теор. вер. и мат.стат.
16. Что делают Data Scientists?
что делают?
как достичь озарения
разрабатывают методы
используют тер.вер., мат.стат
придумывают алгоритмы
используют методы машинного обучения
искусственный интеллект
нейронные сети
Байесовские сети
обработка формализованных знаний
хранение
использование
описание проблем бизнеса
бизнес-моделирование
среды исполнения бизнес-процессов
методы визуализации
17. Мнения о Data Scientists
"Data scientists turn big data into big value, delivering products that delight
users, and insight that informs business decisions. Strong analytical skills are
a given: above all, a data scientist needs to be able to derive robust
conclusions from data. But a data scientist also needs to possess creativity
and strong communication skills".
Daniel Tunkelang, Principal Data Scientist, LinkedIn
"A data scientist is someone who can obtain, scrub, explore, model and
interpret data, blending hacking, statistics and machine learning. Data
scientists not only are adept at working with data, but appreciate data itself as
a first-class product".
Hilary Mason, Chief Scientist at bitly
18. Big Data проекты
сбор данных (CAPEX)
• Сервера
• Облака
• Инфраструктура
• очень много инвестиций в эту
область
извелчение пользы (value) (OPEX)
• команда
• Data Scientist
• Data Engineer
• Manager
• процесс
• сбор данных
• инвентаризация источников
• доступ к данным
• физический
• юридический
• мощности по обработке данных
• Hadoop - обрабатываем прямо там, где
хранятся
• в облаках
• на локальных машинах
• аналитические инструменты
• Splunk
• PreCog
• BigML
20. Что можно уже сейчас делать?
• Использовать Open Data
• http://data.mos.ru/
• Всего: 194 наборов данных от 34
органов исполнительной власти
• 14 приложений
• Дома Москвы
• Наш город
• http://opengovdata.ru
• http://hubofdata.ru
• 5 260 массивов данных
• Архив сведений о поступлении и
расходовании средств
политических партий с 2007 по
2013 годы
• Поездки Президента по стране
• База всех официальных
телеграмм Президента
• 2GIS API
• адреса, рабочее время
• Flamp API
• отзывы
• Профили пользователей
• Открытые научные данные
(Linked Science)
• соединять данные, чтобы получать
новые ценности
• Real Time Billing
22. Зачем управленцам математика? HBR
• подучите азы регрессионного анализа,
статистического анализа и планирования
экспериментов
службами (матричная организация) - чтобы были
коммуникации
• Сосредоточьтесь на начальной и конечной
• пройдите программу статистики для
стадиях
руководящих работников или онлайновый курс
• постановка задачи
обучения или поучитесь у своих аналитиков,
• гипотезы
поработав с ними вместе над проектами
• донесение результатов до
• обратиться к специалистам по планированию
заинтересованных лиц
экспериментов (поучаствовать в исследовании)
• Задавайте по ходу дела много вопросов
• Сотрудничайте с аналитиками подходящей
• больше деталей
специализации
• гипотезы
• формулируйте гипотезы
• принимайте решения на данных
• эксперимент
• наладить контакты между аналитиками и всеми
• Создавайте культуру исследования, а не защиты
• поощрять идеи и критику
• исследовательский дух
• главное - докопаться до истины
• не мнения, а анализ и данные
23. Благодарю за внимание
Павловский Евгений Николаевич, к.ф.-м.н.
Научный сотрудник ИДМИ НИЧ НГУ
директор ООО Исследовательские системы (Академпарк)
Анализ данных в медицине
Услуги по анализу данных
+79139117907
e@xpss.ru
Skype: eunipav