Открытая лекция в Школе новых медиа при ВШЭ, 24.10.2014
1.
2. Двуликая Data Science:
кому поможет, кого заменит?
Андрей Себрант
Яндекс
Директор по маркетингу сервисов
Москва,
24 октября 2014
3. Лирическое вступление
3
Интересная профессия: кочегар паровоза.
Да и сам паровоз тоже непрост.
4. Что бы напридумывали стартаперы?
4
Если бы тогда они были и обладали резвостью нынешних
5. Тем временем
5
Судьбу кочегара (да и паровоза) решали другие
6. Есть примеры свежей и реальней
«Strange to recall, Kodak was the Google of its day. Founded in 1880, it
was known for its pioneering technology and innovative marketing. “You
press the button, we do the rest,” was its slogan in 1888.»
http://www.economist.com/node/21542796 6
10. Data Science != Analytics
Традиция:
Глубокое понимание
Человеческий разум
Построение моделей
Длительный процесс
(подчас месяцы и годы)
Data Science:
• Машинное обучение
• Колоссальные вычисления
• Алгоритмические предсказания
• Ответ в реальном времени
(часто за доли секунды)
11. Data Science != Analytics
Традиция:
•Вместе
Data Science:
•Вместо
12. Data Science != Analytics
Традиция:
• Human readable output
Data Science:
• Machine readable output
http://blogs.hbr.org/2014/08/the-question-to-ask-before-hiring-a-data-scientist/
13. Вмешивается психология
› Вам нравится антиспам на вашем почтовом сервисе?
› Вам нравится контекстная реклама в личной почте?
│ Если ответы на эти два вопроса
не совпали, вы непоследовательны.
│ Зато похожи на человека ;) г
14. Кстати, о спаме
Мнение известного практикующего визионера
(http://www.inc.com/business-insider/elon-musk-robots-delete-humans-like-spam.html )
15. Есть и хорошие новости
Полезно анализировать принимаемые
машиной решения:
│ Проверка на здравый смысл
│ Новые инсайты
16. Case study Yandex Crypta
Look-A-Like in Ad Targeting
(and what do they search)
18. 18
Light TV-viewers: methodology
User Survey
•TNS forms
•4 questions
•Panel survey
by OMI
•28’000 users
Cookie matching
OMI-Yandex
•Matching OMI
panel users and
Yandex visitors
Online behavior
patterns across the
Internet
•Crypta
technology
•200 factors
of user
behavior
19. 19
Heavy TV viewers Light TV viewers
«сбербанк», «коммунальный»,
«шарлотка», «выкройка»,
«биглион», «irr», «заработать»
«книга», «переводчик»,
«словарь», «формула»,
«японский», «французский»,
«немецкий», «такси»
Больше запросов кириллицей Много запросов латиницей
20. 20
Heavy TV viewers Light TV viewers
«тнт», «дом-2»,
«телепрограмма», «стс»
«С++», «wi-fi»,
«фотошоп», «torrent»,
«adobe»
21. 21
Heavy TV viewers Light TV viewers
«спартак», «цска», «пиво» «загранпаспорт», «авиабилет»,
«виза», «самолет»,
«аэропорт», «ржд»
27. 27
Оцифрованная романтика:
eHarmony
• Относительная
площадь лица на
фотографии уже не
столь очевидно
влияет на
вероятность
контакта, и это –
полезный инсайт
28.
29. Где алгоритмы уже успешней?
Есть области, где хорошо обученные
алгоритмы уже доказали, что работают
лучше людей.
Успех основан на использовании
алгоритмических рекомендаций.
• Торговля (не только электронная)
• Музыкальное интернет-радио
30. Классический кейс
Магазин Target
и беременная девочка
(США, 2012 год)
http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?pagewanted=all&_r=0
31. Вместо выводов
• Везде, где нужно принимать много
однотипных решений, алгоритмы
справляются лучше
• Инсайты, получаемые из человеческого
анализа алгоритмических решений, дают
новое уникальное знание
• Научитесь отличать: какие решения лучше
принимает человек, а какие- машина.
И никогда не путайте два этих класса ;)
32. Очень важный момент:
Алгоритмы, даже великолепно
отвечающие на вопросы, пока
не умеют вопросы задавать