3. Рынок Big Data в мире
Wikibon Big Data Market and Forecast, 2011-2020
4. Тренды рынка текстовой аналитики
Источник: IDC Digital Universe Study & EMC, 2011
Объем неструктурированных данных составляет 80-90% от всех данных.
68% неструктурированных данных сгенерированы потребителями
5. Глобальный рынок продуктов текстовой аналитики должен составить
$13.4 млрд. к 2020 году при росте в 18.4% по CAGR. Текущая оценка
рынка - $5.8 млрд*
Европейский рынок текстовой аналитики ожидает рост на 18.3% с 2014
до 2019 года, достигнув $1 223.9 млн к 2019 году. Основные игроки:
Microsoft, IBM, Oracle, SAS, SAP*
61% ЛПР считают, что анализ неструктурированных (текстовых) данных
крайне важен для определения и корректировки стратегии бизнеса,
однако более половины ЛПР в компаниях используют лишь до 25%
доступной текстовой big data для анализа **
Тренды мирового рынка текстовой аналитики
* По оценке MarketsendMarkets & MicromarketMonitor 2015
** По оценке Forrester Report: Big Data Management Solutions Forecast 2016
6. С 2012 года в России число компаний, не заинтересованных в текстовой
аналитике, снизилось с 35 до 18%. Число тех, кто уже использует,
выросло с 20% до 40%*
70% респондентов в России считают, что анализ данных их компании
поможет принимать более взвешенные решения**
31% респондентов сообщили, что их компании получили конкурентное
преимущество в результате внедрения технологий больших данных**
Более половины (51%) респондентов согласны, что технологии анализа
больших данных сыграют решающую роль в выявлении и
предотвращении кибер-атак; это может оказаться решающим фактором,
так как только 67% респондентов в России уверены, что они смогут в
случае необходимости полностью восстановить все свои данные**
Тренды рынка текстовой аналитики в России
* По оценке SAS, 2016 (открытые источники)
** По оценке Dell EMC, 2013. Опрос 678 ИТ-руководителей российских предприятий
7. Источник: TCS Global Trend Study, 2013
Внешние VS Внутренние
Распределение данных
Структурированные VS
Неструктурированные
8. 52% компаний из разных стран и
отраслей НЕ используют в полной
мере накапливаемые данные, либо
же вовсе «тонут» в объемах
неструктурированной
информации*
Потенциал для роста
* Согласно исследованию Information Generation, проведенному ЕМС и Institute for the Future
12. EurekaEngine для бизнеса
Инструмент извлечения коммерчески полезных знаний и
определения тональности через текстовой анализ внутренних и
внешних коммуникаций компании
Текстовые сообщения (посты) social media:
Facebook, VK, Twitter, LinkedIn, Одноклассники
Web-контент: сообщения форумов, отзывы, статьи
СМИ, блоги, чаты
Внутренние документы: файлы Word, опросы,
почтовые сообщения, презентации, текстовые записи
разговоров (call-center), письменные обращения
клиентов
Mobile: сообщения SMS, гео-объекты, чаты мобильных
игр, контент и описания приложений
ДАННЫЕ, которые анализирует EurekaEngine
13. ЗАДАЧА: аналитика информационного поля
бренда
ИНДУСТРИЯ: маркетинг, реклама, СМИ
МОДУЛИ: все лингвистические модули
РЕЗУЛЬТАТ:
Лидеры рынка в real-time мониторинге
инфо-поля;
Рост продаж засчет предложения
уникального продукта, разработанного
на основе технологии EurekaEngine;
Высокая лояльность крупных
корпоративных клиентов;
Снижение рисков в коммуникациях
клиентов;
И др.
Brand Analytics занимают 1 место по качеству среди систем мониторинга соцмедиа в рейтинге TECH INDEX 2016 от AdIndex
14. ЗАДАЧА: рейтинг банков (аналитика
обсуждений соц-медиа 50 крупнейших
российских банков)
ИНДУСТРИЯ: банки
МОДУЛИ: SentiFinder (тональность)
РЕЗУЛЬТАТ (выявленные параметры):
• Лояльность потребителей к банкам;
• Лояльность к банковским
продуктам;
• Информационные всплески
обсуждений;
• Тренды и тенденции в банковском
секторе. Для создания рейтинга было проанализировано более 900 тыс
сообщений от 700 тыс уникальных авторов
15. ЗАДАЧА: составление актуального
рейтинга медиа-персон
ИНДУСТРИЯ: СМИ
МОДУЛИ: SentiFinder (определение
тональности)
РЕЗУЛЬТАТ:
• Рейтинг медиаперсон занимает
топовые позиции в интернет-
пространстве, повышенная
узнаваемость и авторитет СМИ;
• Долгосрочное сотрудничество (2
года)
16. ЗАДАЧА: выявление информационных
трендов по видам спорта на русском и
английском языках
ИНДУСТРИЯ: СМИ
МОДУЛИ: SentiFinder (тональность),
морфоанализатор
РЕЗУЛЬТАТ (выявляемые тренды):
Популярные персоны и виды спорта:
определены среди лидеров роста в
рейтинге популярных слов;
Пики количества обсуждений;
Тональность обсуждений.
Ежедневный поток 1-2,5 млн сообщений.
19. Пример: продажи
ПРОБЛЕМА: неожиданное снижение
продаж
ЗАДАЧА: найти причину
РЕШЕНИЕ: структурированные данные
не позволяют выявить контекст
проблемы в поведении пользователей.
Однако есть возможность
проанализировать записи и профайлы
клиентов. Совместив с анализом
структурированных данных, выявить
истинные причины и наиболее
выгодных для бизнеса (уже или
потенциально) клиентов/пользователей
20. Пример: чаты и community
Анализ тональности сообщений и степени тональности (как по
объекту, так и безобъектно) позволяет выявлять лидеров
community, персонализировать общение, определять тренд развития
21. Пример: гео-локация по эмоциям
Определение эмоционального состояния ЦА в определенной
локации для таргетированного предложения услуг/товаров и push-
уведомлений
23. Пример: дополнение к аналитическим
отчетам
Максимально полный отчет: анализ структурированных
данных и неструктурированных, выявление взаимосвязей и
инсайтов
24. Высокая скорость обработки потока документов (десятки
материалов в минуту)
Качественные возможности анализа русскоязычных сообщений
Возможность аналитики в режиме онлайн
Как «коробочное», так и встраиваемое решение
Обработка не только правильного «книжного» языка (СМИ,
внешний документооборот), но и сообщений социальных сетей,
форумов, блогов
Преимущества EurekaEngine
Уникальная скорость обработки данных – десятки миллионов
документов в сутки на одном сервере, возможно линейное
масштабирование