SlideShare une entreprise Scribd logo
1  sur  45
Télécharger pour lire hors ligne
Анализ мнений
(Sentiment Analysis)
Лекция для Computer Science клуба
Александр Уланов / 7 Апреля 2013
HP Labs Russia
alexander.ulanov@hp.com

© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Введение

Анализ мнений
Sentiment Analysis, Opinion Mining
• Численный анализ мнений, настроений, субъективности, оценок, отношения, эмоций и т.д,
  которые выражены в текстовом виде
  − Обзоры, отзывы, блоги, твиты, комментарии…
• Терминология
  − Sentiment Analysis используется чаще
  − Opinion Mining в сообществе Data Mining
• Важность
  − Люди опираются на мнения и отзывы других людей
  − Организации используют фокус-группы, консультантов и т.д.




2   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Приложения

Анализ мнений
• В бизнесе
  − Анализ товаров и рынка
• Персонально
  − Покупка продуктов и сервисов
  − Советы
  − Политические мнения
• Контекстная реклама
  − Рекламировать товар, который хвалят в данном тексте
• Поиск мнений




3   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
• Классификация документов на основе мнений
  − классификация тональности
  − определение рейтинга товара
  − полезность отзыва
  − классификация спама в отзывах
• Анализ мнений на основе обсуждаемых свойств продукта (в отличие от формальных ТТХ)
  − В этой презентации они называются «аспектами»
• Реферирование мнений на основе аспектов
• Создание словаря мнений
• Поиск сравнений
• Другие задачи…


4   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Пример отзыва
User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что
касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается
корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало
того что алюминий, так он еще и хрупкий.
Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению
с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере.


    Анализ мнений                                                                                        В тексте:
    •   На уровне продукта                                                                               •   Объекты мнений
    •   На уровне отзыва                                                                                 •   Отношение: позитивное, негативное, нейтральное
    •   На уровне предложения                                                                            •   Сравнение
    •   На уровне аспектов товара                                                                        •   Субъект, высказывающий мнение
                                                                                                         •   Время: когда было высказано мнение
                                                                                                         •   Ирония?

5       © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Определения

  Анализ мнений
  • Мнение – это позитивное, негативное или нейтральное суждение о какой-либо


                                                                                o  e , a , so , h , t                                  
  сущности или ее аспекте,
  высказанное неким субъектом
                                              j   jk    ijkl i l
  (в определенное время)
  • Полярность суждения
  • Сущность – продукт, человек, событие, организация или тема. Она может быть представлена в
     виде иерархии компонентов, у которых есть атрибуты.
  • Суждение может быть высказано о компоненте или атрибуте.


                                                                                         iPhone                          Вес, размер

                       Разрешение                                 Экран                                   Батарея                        Емкость, вес
  6   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
B. Liu. Web Data Mining: Exploring Hyperlinks, Hyperlinks, Contents and Usage Data. Second Edition, Springer, July 2011, Chapter 11
Пример анализа
User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что
касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается
корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало
того что алюминий, так он еще и хрупкий.
Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению
с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере.


    Анализ мнений                                                                                            Упрощение модели
    • (iPhone5, В целом, +, User1, 1.4.2011)                                                                 • Пол, возраст, веб-сайт не используются
    • (iPhone5, экран, +, User1, 1.4.2011)                                                                   • Компоненты и атрибуты считаются
    • …                                                                                                        аспектами
                                                                                                             • Точка зрения читателя не учитывается




7    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Постановка задачи

Дано:
• Тексты с отзывами
Задача:
• Найти все мнения o  e , a , so , h , t
                            j   jk    ijkl i l                                                         
• Либо решить задачу в более простой постановке
  − Классификация мнений на уровне документа и др.

Подходы к решению
• Основаны на извлечение информации (information extraction), или извлечения отношений
  (relationship extraction). Например, см. работы E. Riloff ~1991-93
• Обучение с учителем, например C. Manning, Introduction to IR
Что дальше:
• Мнения в структурированном виде можно легко визуализировать
• Численный анализ
8   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Подзадачи анализа мнений

В общем случае                                                o  e j , a jk , soijkl , hi , tl 
•   Распознавание именных сущностей (Named Entity Recognition)
•   Поиск отношений (Relationship Extraction)
•   Поиск мнений (Sentiment Identification)
•   Распознавание ссылок ( Co-reference resolution)
•   Извлечение синонимов (Synonym extraction)
•   И другие задачи извлечения информации (Information Extraction)
Подзадачи подзадач
• Все задачи обработки текстов на естественном языке (NLP)
  − Разбивка текста на предложения, предложения на слова, определение частей речи, структуры
    предложения…



9   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
• Классификация документов на основе мнений
  − классификация тональности
  − определение рейтинга товара
  − полезность отзыва
  − классификация спама в отзывах
• Анализ мнений на основе аспектов
• Реферирование мнений на основе аспектов
• Создание словаря мнений
• Поиск сравнений
• Другие задачи…



10   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Классификация документов на основе
мнений
Дано
• Тексты с отзывами
Задача
• Классификация текстов на положительные, отрицательные (и нейтральные)
Решение                                                                                                                   o = (*,*, soijkl ,*,*)
• Как задачи классификации
• Большую важность имеют «оценочные» слова
  − Хороший, быстрый, медленный…

Проблемы
• Разметка данных
• Надо понимать, что классы на самом деле «положительный/отрицательный отзыв о товаре Х»
• Разные языки

11   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Подходы к классификации
Классификация с учителем
• Набор данных для обучения
  − 1,2 звезды – отрицательные, 4,5 – положительные
  − Нейтральные обычно игнорируют
• Признаки – отдельные слова (их статистики типа tf-idf)
  − Delta tf-idf (*)
                                             N
                        Vt ,d  Ct ,d  log 2  t 
                                              P 
                                               t 
  − Использование частей речи, фраз, позиций (не сильно помогает)
• NaiveBayes, SVM, Decision Trees
• ~80% точности
Классификация без учителя
• Использование словарей оценочных слов
• Полуавтоматическое составление словаря (далее)
  *J. Martineau and T. Finin. Delta TFIDF: An Improved Feature Space for Sentiment Analysis. In Proceedings of the Third AAAI
  Internatonal Conference on Weblogs and Social Media, 2009.
12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обучение с учителем и словарь
   Romip 2011
   •    Набор отзывов по книгам, фильмам и камерам
   •    750 положительных и 124 отрицательных
   •    Обучение с учителем
   •    Бинарный словарь
   •    Частотный словарь
                                                                          MicroR            Macro Macro
                                                     MicroP
                                                                          (Acc)              R     F1
                           Perceptron                   0,84               0,84             0,59  0,60
     Обучение
                          Perceptron +
    с учителем                                          0,84                 0,84             0,62          0,63
                           delta-tf-idf
                           Бинарный                     0,84                 0,80             0,59          0,61
       Словарь
                           Частотный                    0,86                 0,82             0,59          0,61
                                                                                                                                     **J. Martineau and T. Finin. Delta TFIDF:
                                                                                                                                     An Improved Feature Space for Sentiment
*A. Ulanov, G. Sapozhnikov. CONTEXT-DEPENDENT OPINION LEXICON                                                                        Analysis. In Proceedings of the Third AAAI
TRANSLATION WITH THE USE OF A PARALLEL CORPUS. Accepted to Dialog                                                                    Internatonal Conference on Weblogs and
2013Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
 13 ©                                                                                                                                Social Media, 2009.
Классификация: самообучение
                                                                 bootstrapping
Извлечение всех фраз с существительными
• Разбор текстов по частям речи
• Паттерны для фраз
  − JJ- прилагательное
  − NN – существительное
  − RB* – наречие
  − VB* - глагол

Определение тональности фраз
• При помощи поисковой машины и PMI по кол-ву ее ответов на соотв. запросы
                                                                                                                      hits a  b 
SO phrase  PMI ( phrase, " excellent " )  PMI ( phrase, " poor" )                              PMI a, b  
                                                                                                                     hits a hits b 
Определение тональности документа
• Среднее по фразам
 *Turney, P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In
 Proceedings of Annual Meeting Company, L.P. The information contained herein is subject to change without notice.
14 © Copyright 2012 Hewlett-Packard Development
                                                of the Association for Computational Linguistics (ACL-2002), 2002.
Классификация документов. Адаптация

     Проблема адаптации к различным областям
     • Классификатор, обученный на отзывах на ноутбуки, не будет хорошо работать на
       отзывах на книги
     • Необходим размеченные отзывы на данный тип товара, но есть варианты:
     Наличие неразмеченных текстов из интересуемой области
     • Используются простые оценочные слова («плохой», «хороший»)
     • Вычисляется корреляция между этими словами и словами в наборе текстов из данной
       области. Значение используется в качестве веса слова при обучении и классификации
     Наличие размеченных текстов на несколько других типов товаров
     • Delta-tf-idf (насколько специфично данное слово)
     Ничего другого нет
     • Использование признаков, не зависящих от типа товара
       − Низкая точность классификации

15   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Классификация документов. Адаптация

                                                                                                                                        Неразмеченные тексты
                                                                                                                                        • Выбор основных признаков по PMI
                                                                                                                                        • Вычисляется корреляция между
                                                                                                                                          основными признаками и всеми
                                                                                                                                          остальными
                                                                                                                                         −   J. Blitzer, M. Dredze, and F. Pereira. 2007.
                                                                                                                                             Biographies, bollywood, boom-boxes and
                                                                                                                                             blenders: Domain adaptation for sentiment
                                                                                                                                             classification. In ACL.




16   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Классификация документов на разных языках

Подходы
• Разметка набора данных на нужном языке
  − Идеальный вариант
• Автоматический перевод текстов
  − Существующих размеченных данных на нужный язык, затем обучение классификатора
  − С нужного языка на тот язык, в котором есть классификатор
• Создание словаря оценочных слов (полуавтоматическое)
  − Взять небольшой набор известных слов и искать зависимости
• Автоматический перевод словаря оценочных слов
  − Работает хуже всего



     Carmen Banea, Rada Mihalcea, and Janyce Wiebe, Multilingual Sentiment and Subjectivity, in Multilingual Natural Language
     Processing, editors Imed Zitouni and Dan Bikel, Prentice Hall, 2011.
17    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск спама в отзывах

Типы спама
• «Поддельные» отзывы
• Отзывы не на товар, а на бренд
   − «Ненавижу гнусмас»
• Не отзывы
   − Реклама, спецификации
• Последние два типа довольно легко отфильтровать при помощи классификации
• Первый тип – сложно
   − Продвижение продукта
   − Критика продукта конкурента
• Обычно это «выбросы» относительно «среднего» отзыва
• Часто много очень похожих выбросов
   − Тот же пользователь, разные продукты

18 − Copyrightже Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
    © Тот 2012 продукт, разные пользователи
Анализ полезности отзывов

Полезность
• Данные обычно доступны
• Как задача регрессии
• Признаки
  − Аспекты, технические характеристики, сравнения, длина, информативность
• Обычно бинарная классификация




19   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
•    Классификация документов на основе мнений
•    Анализ мнений на основе аспектов
•    Реферирование мнений на основе аспектов
•    Создание словаря мнений
•    Поиск сравнений
•    Другие задачи…




20   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Анализ мнений на основе аспектов

Классификации отзывов или предложений часто недостаточна
• 70% отзывов положительны, 30% отрицательны для 5 разных смартфонов с одинаковой ценой и
  характеристиками. Какой же выбрать?
Дано:
• Тексты с отзывами
Задача:                                                    o  e j , a jk , soijkl , hi , tl 
• Найти все мнения, высказанные о продукте или его аспекте
Подзадачи:
• Найти упоминания продукта в тексте
• Найти аспекты
• Определить тональность мнения


21   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Распознавание продуктов

В текстах отзывов
• Зачастую продукт известен исходя из названия страницы
В обзорах, блогах
• Много сравнений, доп. информации (например, о компании-производителе)
Задача
• Как распознавание именных сущностей (Named Entities Recognition)
• Классификация именных сущностей
Пример
• если выбирать между сегодняшними флагманами. iphone 5, samsung galaxy s3 b htc one x. я бы
  остался со своей галактикой, айфоном попользовался неделю и понял что apple теперь
  догоняющее звено в это сфере.



22   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск аспектов
User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что
касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается
корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало
того что алюминий, так он еще и хрупкий.
Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению
с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере.


Задача
• Найти все аспекты в текстах отзывов
  − Обсуждаемые особенности товаров

Тривиальное решение
• Найти все существительные и отсортировать по частоте
  − Набор из первых 10-20 дает точность порядка 80% (полноту до нескольких процентов)
• Что делать с «редкими» аспектами или когда отзывов недостаточно?
23   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск аспектов
Как задача извлечения информации (Information Extraction)
• Поиск фраз с существительным, лучше всего – фразы с оценочными словами. Существительное
  считается кандидатом в аспекты
  − good phone                   (JJ)(NN)
  − I like phone’s resolution    (NN)(NN)
  − battery became better        (NN)(VB)(JJS)
• Вычисляется статистика встречаемости «описательного признака» и кандидата в аспекты
  − Описательный признак: “phone has”, “phone features”…
                                                           PMI a, d 
                                                                       hits a  d
                                                                                                                                                    
  − Кандидат: camera, user…
  − Статистика на основе поисковых запросов
                                                                      hits a hits d                                                                   
• Система может «идти» по тексту и автоматически обучаться
• Дополнительные признаки типа отношений между словами


     Ana M. Popescu, Oren Etzioni. Extracting Product Features and Opinions from Reviews. In Proceedings of the conference on Human
     Language Technology and Empirical Methods in Natural Language Processing (2005)
24    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск аспектов
Как классификация
• Необходим набор данных с размеченными в тексте аспектами
• Каждое слово классифицируется в класс «аспект/не аспект»
• Набор признаков для обучения
  − Слова в окне от данного слова
  − Часть речи (обычно все аспекты – существительные)
  − TF-IDF, Weirdness (=TF(в отзывах)/TF(в контрастном корпусе)), PMI
  − Предыдущая/следующая часть речи, части речи в окне от данного слова
  − Отношения данного слова (dependency parsing)




25   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск аспектов
                                                                                                                                     Dataset            P       R      F1
 Сравнение подходов                                                                                                                  Vote-strong     0.757   0.711   0.733
                                                                                                                                     Vote-negative   0.509   0.316   0.39
• Поиск аспектов в отзывах на ноутбуки на руссом языке*
                                                                                                                                     Vote-positive   0.79    0.728   0.758

        *Marchuk A., Ulanov A., Makeev I., Chugreev A. EXTRACTING PRODUCT FEATURES FROM REVIEWS WITH THE USE OF
        INTERNET STATISTICS. Accepted to Dialog 2013

• Поиск аспектов в отзывах на разные товары на английском** (F1-мера)
                                                                                                                           Использование в качестве признаков
                                                                                                                           классификации только частей речи:
                                                                                                                                                         Test
                                                                                                                                                 cameras player       router
                                                                                                                                         cameras 0.5263 0.3826        0.5172




                                                                                                                                 Train
                                                                                                                                          player  0.5208 0.4154       0.5152
                                                                                                                                          router  0.5263 0.3898       0.5484
     **Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. "Opinion Word Expansion and Target Extraction through Double
     Propagation." Computational Linguistics, March 2011, Vol. 37, No. 1: 9.27.
26    © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск неявных аспектов
User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что
касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается
корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало
того что алюминий, так он еще и хрупкий.
Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению
с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере.


Решение
• Часто аспекты неявно упоминаются при использовании прилагательных или глаголов
• Кластеризация
• Классификация




27   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Определение тональности аспекта 1/2

Решение
• Списки «оценочных слов»
  − Плохой, быстрый…
• Полярность оценочного слова может зависеть от контекста и типа рецензируемой сущности
  − Большой видоискатель, большой вес
  − Миниатюрный видоискатель, миниатюрный ноутбук
• Есть слова, изменяющие или усиливающие полярность
  − не-, ужасно-
• Лексикон оценочных слов зависит от типа рецензируемой сущности
  − Скорострельный фотоаппарат
                                                                                sowi 
• Тональность аспекта на основе близости к «оценочным» словам       soa   
                                                                             i d wi , a 


                                                                                                                                        Ding, Liu and Yu 2008

28   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Определение тональности аспекта 2/2

Слова, изменяющие тональность
• Отрицание
  − Не, никогда, ни за что…
• «Бы»
  − Мог бы быть быстрее
• Неполнота
  − Едва, с трудом
• Обманутые ожидания
  − Если разработчики думали, что телефон всем понравится, то они потерпели неудачу
• Сарказм
  − Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость
• Список правил в статье [Liu 2010]
  − Желательные/нежелательные факты

29   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
•    Классификация документов на основе мнений
•    Анализ мнений на основе аспектов
•    Реферирование мнений на основе аспектов
•    Создание словаря мнений
•    Поиск сравнений
•    Другие задачи…




30   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Реферирование мнений на основе аспектов

Агрегация
•    По предложениям
•    Генерация предложений на основе аспектов
•    Выбор предложений для наиболее часто упоминаемых аспектов
•    Выбор предложений на основе информативности и читаемости
•    На основе онтологии




31   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
•    Классификация документов на основе мнений
•    Анализ мнений на основе аспектов
•    Реферирование мнений на основе аспектов
•    Создание словаря мнений
•    Поиск сравнений
•    Другие задачи…




32   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Создание словаря мнений

Словарь оценочных слов
• Слова, используемые для выражения субъективных мнений и оценок
  − Обычно делят на «положительные» и «отрицательные». Отрицательных больше:
    «Все счастливые семьи счастливы одинаково, каждая несчастливая семья несчастлива по-своему» (с)
• Оценочных слов довольно много
  − Созданный вручную английский словарь содержит около 6800 слов (Bing Liu)
  − Еще есть оценочные фразы
• Зависят от контекста
• Как создать
  − Вручную (обычно)
  − На основе словарей (WordNet) и исходного списка стандартных слов типа «плохой», «хороший»
    • Синонимы, антонимы
  − На основе данных

33   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Создание словаря мнений на основе данных

Подходы
• На основе синтаксических паттернов (прилагательное+существительное)
• На основе небольшого изначального набора слов и некоторых правил
  − Быстрый И легкий, А ТАКЖЕ, КРОМЕ ТОГО
• С использованием PMI
• Double propagation (Qiu et al 2009, 2011)
  − Дан изначальный набор оценочных слов
  − Находим все аспекты
  − Находим все оценочные слова этих аспектов
  − Дополняем изначальный набор и начинаем сначала
• Словарь должен иметь высокую точность, поэтому необходима проверка словаря человеком



34   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
•    Классификация документов на основе мнений
•    Анализ мнений на основе аспектов
•    Реферирование мнений на основе аспектов
•    Создание словаря мнений
•    Поиск сравнений
•    Другие задачи…




35   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Поиск сравнений
User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что
касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается
корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало
того что алюминий, так он еще и хрупкий.
Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению
с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере.

Задача
• Найти сравнение двух сущностей (продуктов) на основе аспекта, набор предпочтительных
  сущностей, субъекта и время
                                       E1, E2 , A, po, h, t 
• (iPhone5,iPhone4s,корпус,iPhone4,User1,2011-4-1)
• По набору специальных «сравнительных» слов и фраз
  − По сравнению, при этом
• Степень сравнения прилагательных
  − Лучше, больше, наилучший
36   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Задачи

Анализ мнений
•    Классификация документов на основе мнений
•    Анализ мнений на основе аспектов
•    Реферирование мнений на основе аспектов
•    Создание словаря мнений
•    Поиск сравнений
•    Другие задачи…коммерческие приложения




37   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Amazon




38   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Google products




39   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Яндекс маркет




40   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Отзывной ру




41   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
OpinionEQ
      SAS Sentiment Analysis и другие коммерческие системы выглядят похоже




42   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Заключение
Анализ мнений
• Множество полезных задач
  − От классификации до конкретных аспектов
• Ни одна полностью не решена
  − Множество областей, разные товары, услуги…
  − Хотелось бы замкнуть цикл
    • Продажи->Отзывы->Анализ товара->Внесение правок в товар->Продажи
• Множество сложных подзадач
  − Обработка естественного языка




43   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Заключение
Ссылки
• Литература
  − Pang, Bo, and Lillian Lee. "Opinion mining and sentiment analysis."Foundations and trends in information
    retrieval 2.1-2 (2008): 1-135.
  − B. Liu. Web Data Mining: Exploring Hyperlinks, Hyperlinks, Contents and Usage Data. Second Edition,
    Springer, July 2011, Chapter 11
• Наборы данных для тестов и список оценочных слов на английском
  − http://www.cs.uic.edu/~liub
• Программы для машинного обучения
  − Weka ML tool http://www.cs.waikato.ac.nz/ml/weka/
• Google sentiment analysis service
  − https://developers.google.com/prediction/docs/sentiment_analysis




44   © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Конец




© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Contenu connexe

Similaire à 20130407 csseminar ulanov_sentiment_analysis

Как проводить интервью
Как проводить интервьюКак проводить интервью
Как проводить интервьюDmitry Satin
 
kranonit S01E02 Игорь Цинько: Как искать работу
kranonit S01E02 Игорь Цинько: Как искать работуkranonit S01E02 Игорь Цинько: Как искать работу
kranonit S01E02 Игорь Цинько: Как искать работуKrivoy Rog IT Community
 
Пусть Канбан будет странным - Agile Piter
Пусть Канбан будет странным - Agile PiterПусть Канбан будет странным - Agile Piter
Пусть Канбан будет странным - Agile Piterazheglov
 
Checkpoint 360 - Тренинг для пользователя-2013
Checkpoint 360 - Тренинг для пользователя-2013Checkpoint 360 - Тренинг для пользователя-2013
Checkpoint 360 - Тренинг для пользователя-2013Oleg Afanasyev
 
Опыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product DiscoveryОпыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product DiscoveryNikita Efimov
 
собеседование тестировщиков что спросить и как ответить
собеседование тестировщиков   что спросить и как ответитьсобеседование тестировщиков   что спросить и как ответить
собеседование тестировщиков что спросить и как ответитьAlex Baranouski
 
Как научиться делать продукт для пользователей?
Как научиться делать продукт для пользователей?Как научиться делать продукт для пользователей?
Как научиться делать продукт для пользователей?George Barkan
 
CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?
CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?
CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?CodeFest
 

Similaire à 20130407 csseminar ulanov_sentiment_analysis (9)

Как проводить интервью
Как проводить интервьюКак проводить интервью
Как проводить интервью
 
kranonit S01E02 Игорь Цинько: Как искать работу
kranonit S01E02 Игорь Цинько: Как искать работуkranonit S01E02 Игорь Цинько: Как искать работу
kranonit S01E02 Игорь Цинько: Как искать работу
 
Tехника задавания вопросов
Tехника задавания вопросовTехника задавания вопросов
Tехника задавания вопросов
 
Пусть Канбан будет странным - Agile Piter
Пусть Канбан будет странным - Agile PiterПусть Канбан будет странным - Agile Piter
Пусть Канбан будет странным - Agile Piter
 
Checkpoint 360 - Тренинг для пользователя-2013
Checkpoint 360 - Тренинг для пользователя-2013Checkpoint 360 - Тренинг для пользователя-2013
Checkpoint 360 - Тренинг для пользователя-2013
 
Опыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product DiscoveryОпыт выстраивания процесса Product Discovery
Опыт выстраивания процесса Product Discovery
 
собеседование тестировщиков что спросить и как ответить
собеседование тестировщиков   что спросить и как ответитьсобеседование тестировщиков   что спросить и как ответить
собеседование тестировщиков что спросить и как ответить
 
Как научиться делать продукт для пользователей?
Как научиться делать продукт для пользователей?Как научиться делать продукт для пользователей?
Как научиться делать продукт для пользователей?
 
CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?
CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?
CodeFest 2012. Баркан Г. — Как научиться делать продукт для пользователей?
 

Plus de Computer Science Club

20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugsComputer Science Club
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12Computer Science Club
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11Computer Science Club
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10Computer Science Club
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09Computer Science Club
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02Computer Science Club
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01Computer Science Club
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04Computer Science Club
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01Computer Science Club
 

Plus de Computer Science Club (20)

20141223 kuznetsov distributed
20141223 kuznetsov distributed20141223 kuznetsov distributed
20141223 kuznetsov distributed
 
Computer Vision
Computer VisionComputer Vision
Computer Vision
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04
 
20140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-0320140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-03
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01
 
20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 

20130407 csseminar ulanov_sentiment_analysis

  • 1. Анализ мнений (Sentiment Analysis) Лекция для Computer Science клуба Александр Уланов / 7 Апреля 2013 HP Labs Russia alexander.ulanov@hp.com © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 2. Введение Анализ мнений Sentiment Analysis, Opinion Mining • Численный анализ мнений, настроений, субъективности, оценок, отношения, эмоций и т.д, которые выражены в текстовом виде − Обзоры, отзывы, блоги, твиты, комментарии… • Терминология − Sentiment Analysis используется чаще − Opinion Mining в сообществе Data Mining • Важность − Люди опираются на мнения и отзывы других людей − Организации используют фокус-группы, консультантов и т.д. 2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 3. Приложения Анализ мнений • В бизнесе − Анализ товаров и рынка • Персонально − Покупка продуктов и сервисов − Советы − Политические мнения • Контекстная реклама − Рекламировать товар, который хвалят в данном тексте • Поиск мнений 3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 4. Задачи Анализ мнений • Классификация документов на основе мнений − классификация тональности − определение рейтинга товара − полезность отзыва − классификация спама в отзывах • Анализ мнений на основе обсуждаемых свойств продукта (в отличие от формальных ТТХ) − В этой презентации они называются «аспектами» • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи… 4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 5. Пример отзыва User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало того что алюминий, так он еще и хрупкий. Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере. Анализ мнений В тексте: • На уровне продукта • Объекты мнений • На уровне отзыва • Отношение: позитивное, негативное, нейтральное • На уровне предложения • Сравнение • На уровне аспектов товара • Субъект, высказывающий мнение • Время: когда было высказано мнение • Ирония? 5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 6. Определения Анализ мнений • Мнение – это позитивное, негативное или нейтральное суждение о какой-либо o  e , a , so , h , t  сущности или ее аспекте, высказанное неким субъектом j jk ijkl i l (в определенное время) • Полярность суждения • Сущность – продукт, человек, событие, организация или тема. Она может быть представлена в виде иерархии компонентов, у которых есть атрибуты. • Суждение может быть высказано о компоненте или атрибуте. iPhone Вес, размер Разрешение Экран Батарея Емкость, вес 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. B. Liu. Web Data Mining: Exploring Hyperlinks, Hyperlinks, Contents and Usage Data. Second Edition, Springer, July 2011, Chapter 11
  • 7. Пример анализа User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало того что алюминий, так он еще и хрупкий. Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере. Анализ мнений Упрощение модели • (iPhone5, В целом, +, User1, 1.4.2011) • Пол, возраст, веб-сайт не используются • (iPhone5, экран, +, User1, 1.4.2011) • Компоненты и атрибуты считаются • … аспектами • Точка зрения читателя не учитывается 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 8. Постановка задачи Дано: • Тексты с отзывами Задача: • Найти все мнения o  e , a , so , h , t j jk ijkl i l   • Либо решить задачу в более простой постановке − Классификация мнений на уровне документа и др. Подходы к решению • Основаны на извлечение информации (information extraction), или извлечения отношений (relationship extraction). Например, см. работы E. Riloff ~1991-93 • Обучение с учителем, например C. Manning, Introduction to IR Что дальше: • Мнения в структурированном виде можно легко визуализировать • Численный анализ 8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 9. Подзадачи анализа мнений В общем случае o  e j , a jk , soijkl , hi , tl  • Распознавание именных сущностей (Named Entity Recognition) • Поиск отношений (Relationship Extraction) • Поиск мнений (Sentiment Identification) • Распознавание ссылок ( Co-reference resolution) • Извлечение синонимов (Synonym extraction) • И другие задачи извлечения информации (Information Extraction) Подзадачи подзадач • Все задачи обработки текстов на естественном языке (NLP) − Разбивка текста на предложения, предложения на слова, определение частей речи, структуры предложения… 9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 10. Задачи Анализ мнений • Классификация документов на основе мнений − классификация тональности − определение рейтинга товара − полезность отзыва − классификация спама в отзывах • Анализ мнений на основе аспектов • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи… 10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 11. Классификация документов на основе мнений Дано • Тексты с отзывами Задача • Классификация текстов на положительные, отрицательные (и нейтральные) Решение o = (*,*, soijkl ,*,*) • Как задачи классификации • Большую важность имеют «оценочные» слова − Хороший, быстрый, медленный… Проблемы • Разметка данных • Надо понимать, что классы на самом деле «положительный/отрицательный отзыв о товаре Х» • Разные языки 11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 12. Подходы к классификации Классификация с учителем • Набор данных для обучения − 1,2 звезды – отрицательные, 4,5 – положительные − Нейтральные обычно игнорируют • Признаки – отдельные слова (их статистики типа tf-idf) − Delta tf-idf (*)   N Vt ,d  Ct ,d  log 2  t  P   t  − Использование частей речи, фраз, позиций (не сильно помогает) • NaiveBayes, SVM, Decision Trees • ~80% точности Классификация без учителя • Использование словарей оценочных слов • Полуавтоматическое составление словаря (далее) *J. Martineau and T. Finin. Delta TFIDF: An Improved Feature Space for Sentiment Analysis. In Proceedings of the Third AAAI Internatonal Conference on Weblogs and Social Media, 2009. 12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 13. Обучение с учителем и словарь Romip 2011 • Набор отзывов по книгам, фильмам и камерам • 750 положительных и 124 отрицательных • Обучение с учителем • Бинарный словарь • Частотный словарь MicroR Macro Macro MicroP (Acc) R F1 Perceptron 0,84 0,84 0,59 0,60 Обучение Perceptron + с учителем 0,84 0,84 0,62 0,63 delta-tf-idf Бинарный 0,84 0,80 0,59 0,61 Словарь Частотный 0,86 0,82 0,59 0,61 **J. Martineau and T. Finin. Delta TFIDF: An Improved Feature Space for Sentiment *A. Ulanov, G. Sapozhnikov. CONTEXT-DEPENDENT OPINION LEXICON Analysis. In Proceedings of the Third AAAI TRANSLATION WITH THE USE OF A PARALLEL CORPUS. Accepted to Dialog Internatonal Conference on Weblogs and 2013Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 13 © Social Media, 2009.
  • 14. Классификация: самообучение bootstrapping Извлечение всех фраз с существительными • Разбор текстов по частям речи • Паттерны для фраз − JJ- прилагательное − NN – существительное − RB* – наречие − VB* - глагол Определение тональности фраз • При помощи поисковой машины и PMI по кол-ву ее ответов на соотв. запросы hits a  b  SO phrase  PMI ( phrase, " excellent " )  PMI ( phrase, " poor" ) PMI a, b   hits a hits b  Определение тональности документа • Среднее по фразам *Turney, P. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In Proceedings of Annual Meeting Company, L.P. The information contained herein is subject to change without notice. 14 © Copyright 2012 Hewlett-Packard Development of the Association for Computational Linguistics (ACL-2002), 2002.
  • 15. Классификация документов. Адаптация Проблема адаптации к различным областям • Классификатор, обученный на отзывах на ноутбуки, не будет хорошо работать на отзывах на книги • Необходим размеченные отзывы на данный тип товара, но есть варианты: Наличие неразмеченных текстов из интересуемой области • Используются простые оценочные слова («плохой», «хороший») • Вычисляется корреляция между этими словами и словами в наборе текстов из данной области. Значение используется в качестве веса слова при обучении и классификации Наличие размеченных текстов на несколько других типов товаров • Delta-tf-idf (насколько специфично данное слово) Ничего другого нет • Использование признаков, не зависящих от типа товара − Низкая точность классификации 15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 16. Классификация документов. Адаптация Неразмеченные тексты • Выбор основных признаков по PMI • Вычисляется корреляция между основными признаками и всеми остальными − J. Blitzer, M. Dredze, and F. Pereira. 2007. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification. In ACL. 16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 17. Классификация документов на разных языках Подходы • Разметка набора данных на нужном языке − Идеальный вариант • Автоматический перевод текстов − Существующих размеченных данных на нужный язык, затем обучение классификатора − С нужного языка на тот язык, в котором есть классификатор • Создание словаря оценочных слов (полуавтоматическое) − Взять небольшой набор известных слов и искать зависимости • Автоматический перевод словаря оценочных слов − Работает хуже всего Carmen Banea, Rada Mihalcea, and Janyce Wiebe, Multilingual Sentiment and Subjectivity, in Multilingual Natural Language Processing, editors Imed Zitouni and Dan Bikel, Prentice Hall, 2011. 17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 18. Поиск спама в отзывах Типы спама • «Поддельные» отзывы • Отзывы не на товар, а на бренд − «Ненавижу гнусмас» • Не отзывы − Реклама, спецификации • Последние два типа довольно легко отфильтровать при помощи классификации • Первый тип – сложно − Продвижение продукта − Критика продукта конкурента • Обычно это «выбросы» относительно «среднего» отзыва • Часто много очень похожих выбросов − Тот же пользователь, разные продукты 18 − Copyrightже Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. © Тот 2012 продукт, разные пользователи
  • 19. Анализ полезности отзывов Полезность • Данные обычно доступны • Как задача регрессии • Признаки − Аспекты, технические характеристики, сравнения, длина, информативность • Обычно бинарная классификация 19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 20. Задачи Анализ мнений • Классификация документов на основе мнений • Анализ мнений на основе аспектов • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи… 20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 21. Анализ мнений на основе аспектов Классификации отзывов или предложений часто недостаточна • 70% отзывов положительны, 30% отрицательны для 5 разных смартфонов с одинаковой ценой и характеристиками. Какой же выбрать? Дано: • Тексты с отзывами Задача: o  e j , a jk , soijkl , hi , tl  • Найти все мнения, высказанные о продукте или его аспекте Подзадачи: • Найти упоминания продукта в тексте • Найти аспекты • Определить тональность мнения 21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 22. Распознавание продуктов В текстах отзывов • Зачастую продукт известен исходя из названия страницы В обзорах, блогах • Много сравнений, доп. информации (например, о компании-производителе) Задача • Как распознавание именных сущностей (Named Entities Recognition) • Классификация именных сущностей Пример • если выбирать между сегодняшними флагманами. iphone 5, samsung galaxy s3 b htc one x. я бы остался со своей галактикой, айфоном попользовался неделю и понял что apple теперь догоняющее звено в это сфере. 22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 23. Поиск аспектов User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало того что алюминий, так он еще и хрупкий. Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере. Задача • Найти все аспекты в текстах отзывов − Обсуждаемые особенности товаров Тривиальное решение • Найти все существительные и отсортировать по частоте − Набор из первых 10-20 дает точность порядка 80% (полноту до нескольких процентов) • Что делать с «редкими» аспектами или когда отзывов недостаточно? 23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 24. Поиск аспектов Как задача извлечения информации (Information Extraction) • Поиск фраз с существительным, лучше всего – фразы с оценочными словами. Существительное считается кандидатом в аспекты − good phone (JJ)(NN) − I like phone’s resolution (NN)(NN) − battery became better (NN)(VB)(JJS) • Вычисляется статистика встречаемости «описательного признака» и кандидата в аспекты − Описательный признак: “phone has”, “phone features”… PMI a, d  hits a  d     − Кандидат: camera, user… − Статистика на основе поисковых запросов hits a hits d     • Система может «идти» по тексту и автоматически обучаться • Дополнительные признаки типа отношений между словами Ana M. Popescu, Oren Etzioni. Extracting Product Features and Opinions from Reviews. In Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing (2005) 24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 25. Поиск аспектов Как классификация • Необходим набор данных с размеченными в тексте аспектами • Каждое слово классифицируется в класс «аспект/не аспект» • Набор признаков для обучения − Слова в окне от данного слова − Часть речи (обычно все аспекты – существительные) − TF-IDF, Weirdness (=TF(в отзывах)/TF(в контрастном корпусе)), PMI − Предыдущая/следующая часть речи, части речи в окне от данного слова − Отношения данного слова (dependency parsing) 25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 26. Поиск аспектов Dataset P R F1 Сравнение подходов Vote-strong 0.757 0.711 0.733 Vote-negative 0.509 0.316 0.39 • Поиск аспектов в отзывах на ноутбуки на руссом языке* Vote-positive 0.79 0.728 0.758 *Marchuk A., Ulanov A., Makeev I., Chugreev A. EXTRACTING PRODUCT FEATURES FROM REVIEWS WITH THE USE OF INTERNET STATISTICS. Accepted to Dialog 2013 • Поиск аспектов в отзывах на разные товары на английском** (F1-мера) Использование в качестве признаков классификации только частей речи: Test cameras player router cameras 0.5263 0.3826 0.5172 Train player 0.5208 0.4154 0.5152 router 0.5263 0.3898 0.5484 **Guang Qiu, Bing Liu, Jiajun Bu and Chun Chen. "Opinion Word Expansion and Target Extraction through Double Propagation." Computational Linguistics, March 2011, Vol. 37, No. 1: 9.27. 26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 27. Поиск неявных аспектов User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало того что алюминий, так он еще и хрупкий. Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере. Решение • Часто аспекты неявно упоминаются при использовании прилагательных или глаголов • Кластеризация • Классификация 27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 28. Определение тональности аспекта 1/2 Решение • Списки «оценочных слов» − Плохой, быстрый… • Полярность оценочного слова может зависеть от контекста и типа рецензируемой сущности − Большой видоискатель, большой вес − Миниатюрный видоискатель, миниатюрный ноутбук • Есть слова, изменяющие или усиливающие полярность − не-, ужасно- • Лексикон оценочных слов зависит от типа рецензируемой сущности − Скорострельный фотоаппарат sowi  • Тональность аспекта на основе близости к «оценочным» словам soa    i d wi , a  Ding, Liu and Yu 2008 28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 29. Определение тональности аспекта 2/2 Слова, изменяющие тональность • Отрицание − Не, никогда, ни за что… • «Бы» − Мог бы быть быстрее • Неполнота − Едва, с трудом • Обманутые ожидания − Если разработчики думали, что телефон всем понравится, то они потерпели неудачу • Сарказм − Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость • Список правил в статье [Liu 2010] − Желательные/нежелательные факты 29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 30. Задачи Анализ мнений • Классификация документов на основе мнений • Анализ мнений на основе аспектов • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи… 30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 31. Реферирование мнений на основе аспектов Агрегация • По предложениям • Генерация предложений на основе аспектов • Выбор предложений для наиболее часто упоминаемых аспектов • Выбор предложений на основе информативности и читаемости • На основе онтологии 31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 32. Задачи Анализ мнений • Классификация документов на основе мнений • Анализ мнений на основе аспектов • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи… 32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 33. Создание словаря мнений Словарь оценочных слов • Слова, используемые для выражения субъективных мнений и оценок − Обычно делят на «положительные» и «отрицательные». Отрицательных больше: «Все счастливые семьи счастливы одинаково, каждая несчастливая семья несчастлива по-своему» (с) • Оценочных слов довольно много − Созданный вручную английский словарь содержит около 6800 слов (Bing Liu) − Еще есть оценочные фразы • Зависят от контекста • Как создать − Вручную (обычно) − На основе словарей (WordNet) и исходного списка стандартных слов типа «плохой», «хороший» • Синонимы, антонимы − На основе данных 33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 34. Создание словаря мнений на основе данных Подходы • На основе синтаксических паттернов (прилагательное+существительное) • На основе небольшого изначального набора слов и некоторых правил − Быстрый И легкий, А ТАКЖЕ, КРОМЕ ТОГО • С использованием PMI • Double propagation (Qiu et al 2009, 2011) − Дан изначальный набор оценочных слов − Находим все аспекты − Находим все оценочные слова этих аспектов − Дополняем изначальный набор и начинаем сначала • Словарь должен иметь высокую точность, поэтому необходима проверка словаря человеком 34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 35. Задачи Анализ мнений • Классификация документов на основе мнений • Анализ мнений на основе аспектов • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи… 35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 36. Поиск сравнений User1 написал 1.4.2011 в 22:01: iPhone 5 получился хорошим, но не таким как все его ожидали. что касается экрана , разрешение выросло, удобнее играть в горизонтальном режиме, а вот что касается корпуса, то тут однозначно большой -. в 4s использовалось стекло и нержавеющая сталь, а тут мало того что алюминий, так он еще и хрупкий. Батарейка осталась прежней, а нет вру батарейка получила феноменальную емкость по сравнению с 4 моделью, аж 1410 против 1400. Прав был Эльдар - apple теперь догоняющее звено в это сфере. Задача • Найти сравнение двух сущностей (продуктов) на основе аспекта, набор предпочтительных сущностей, субъекта и время E1, E2 , A, po, h, t  • (iPhone5,iPhone4s,корпус,iPhone4,User1,2011-4-1) • По набору специальных «сравнительных» слов и фраз − По сравнению, при этом • Степень сравнения прилагательных − Лучше, больше, наилучший 36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 37. Задачи Анализ мнений • Классификация документов на основе мнений • Анализ мнений на основе аспектов • Реферирование мнений на основе аспектов • Создание словаря мнений • Поиск сравнений • Другие задачи…коммерческие приложения 37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 38. Amazon 38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 39. Google products 39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 40. Яндекс маркет 40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 41. Отзывной ру 41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 42. OpinionEQ SAS Sentiment Analysis и другие коммерческие системы выглядят похоже 42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 43. Заключение Анализ мнений • Множество полезных задач − От классификации до конкретных аспектов • Ни одна полностью не решена − Множество областей, разные товары, услуги… − Хотелось бы замкнуть цикл • Продажи->Отзывы->Анализ товара->Внесение правок в товар->Продажи • Множество сложных подзадач − Обработка естественного языка 43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 44. Заключение Ссылки • Литература − Pang, Bo, and Lillian Lee. "Opinion mining and sentiment analysis."Foundations and trends in information retrieval 2.1-2 (2008): 1-135. − B. Liu. Web Data Mining: Exploring Hyperlinks, Hyperlinks, Contents and Usage Data. Second Edition, Springer, July 2011, Chapter 11 • Наборы данных для тестов и список оценочных слов на английском − http://www.cs.uic.edu/~liub • Программы для машинного обучения − Weka ML tool http://www.cs.waikato.ac.nz/ml/weka/ • Google sentiment analysis service − https://developers.google.com/prediction/docs/sentiment_analysis 44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 45. Конец © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.