Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

Прокачиваем информационные системы с помощью data science

Доклад Сергея Шашева на конференции Analyst Days-5, 22-23 апреля 2016 г., Санкт-Петербург
www.analystdays.com

  • Identifiez-vous pour voir les commentaires

Прокачиваем информационные системы с помощью data science

  1. 1. Прокачиваем информационные системы с помощью data science
  2. 2. Зачем это нужно знать аналитику?
  3. 3. Глоссарий Информационная система - совокупность технического, программного и организационного обеспечения, а также персонала, предназначенная для того, чтобы своевременно обеспечивать надлежащих людей надлежащей информацией [William S]. Информационная система - это взаимосвязанная совокупность информационных, технических, программных, математических, организационных, правовых, эргономических, лингвистических, технологических и других средств, а также персонала, предназначенная для сбора, обработки, хранения и выдачи экономической информации и принятия управленческих решений [М.Р. Когаловский]. Наука о данных (data science) = Big data + Data Mining + Machine Learning.
  4. 4. Дешевый вход в область data science • Open source over 3K • Научные статьи, блоги, лучшие практики over 100K Узнали опыт коллег Добавили эвристик Взяли что-то готовое Тут уже сложно
  5. 5. Где мы находимся по отношению к уровню развития бизнеса? В этой области нет места инновациям Здесь появляется
  6. 6. Где мы находимся по отношению к данным? Процессы Уровни – заказная разработка, o utsource, интегратор, консалтинг Данные Уровни – бизнес, in-house, 100 лет сопровождения Экспертиза в data science Уровень – внешняя команда
  7. 7. Обработка данных – драйвер роста бизнеса • Контур • 1C Битрикс • Yandex, Rambler, Mail.ru • Операторы связи • Банки • Ритейл
  8. 8. Что такое данные ? • Цифры • Тексты • Логи • БД в конец концов • Внешние источники О некоторых аспектах бизнеса заказчика вы можете узнать больше заказчика
  9. 9. Основные точки применения • Интеграция в процессы принятия решений • Поиск • Интеллектуальные подсказчики • Контроль работы персонала • Актуальные задачи предметной области Центральная задача – принятие решений. Любое решение стоит дорого, особенно если он неверно.
  10. 10. Задачи Минобрнауки • Как сформировать приоритетные направления? • Кому выделить финансирование? Сколько? • Как проложить мост между промышленностью и наукой? • Кого оставить на плаву в условиях кризиса? • Кто эксперт в узкой области? • Как найти ценные разработки в десятках миллионов документов?
  11. 11. Поехали! Получаем все слова документов
  12. 12. Обрабатываем коллекцию документов
  13. 13. Пространство слов
  14. 14. Обработка в общих чертах
  15. 15. Переходим в векторное пространство
  16. 16. Ближайшая параллель
  17. 17. Модель коллекции. Модель слов.
  18. 18. Специфика задач data science • Множество ложных гипотез • Нет промышленного кода долгое время • Предобработка данных – 70% времени • Обоснование ROI для каждой задачи
  19. 19. Траектория решения задач data science 1. Гипотезы -> Верификация 2. Получение выборки данных 3. Эксперименты 4. Обоснование ROI 5. Инфраструктура Big data 6. Внедрение в реальные бизнес- процессы
  20. 20. Семантический поиск
  21. 21. Компетенции, лидеры, эксперты – 3 клика
  22. 22. Смысловой антиплагиат Учитываем предметную область
  23. 23. Агрегация данных и анализ
  24. 24. Что есть организация/персона
  25. 25. Графы связей организаций • Поиск явных связей • Выявление конкурентов • Выявление возможных партнеров
  26. 26. НТИ • Отчеты по организациям • Отчеты по персона • Отчеты по научно-техническим разработкам • Полный отчет по АэроНэт – 2033 страницы
  27. 27. Факторы успеха 1. Вовлеченный заказчик 2. Вникнуть в бизнес 3. Мониторинг новинок 4. Академические связи 5. Обмен опытом 6. Быстрые эксперименты 7. Люди с компетенциями
  28. 28. Рекомендуемые инструменты и алгоритмы • Word2Vec • SVD • Mystem • Breeze NLP • Snappy • Akka • Apache Solr • Apache Spark • REDSVD • BLAS • CBC • HAC • Scala NLP • LDA + GS • DBscan • Optics • Boilerpipe • Scala/MongoDB/Postgress
  29. 29. В 21 веке информационные системы должны быть интеллектуальными Шашев Сергей, sshashev@naumen.ru • Не нужно быть гуру математики для внедрения элементов data science • Открытых знаний и рецептов – море • Объем Open Source и продуктов – тысячи систем • Аналитик – драйвер прокачки информационных систем

×