SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
Minado de
Opiniones!
#datafest!
Lic. Ernesto Mislej!
ernesto@7puentes.com - @fetnelio !

Datafest – La Nación & Univ. Austral !
Noviembre 2012 – BA – Argentina !
                   7puentes.com!
Outline



   • Intro & Background
   • Modelo Formal
   • Subtareas
       • Recuperación de Opiniones (Opinion Retrieval)
       • Modelos de Análisis de Sentimiento (Sentiment Analysis)
       • Resumen (Summarization)
   • Problemas y desafíos
   • Referencias
Intro

  El objetivo del Minado de Opiniones - (OM) es recuperar y
  extraer la orientación semántica de un conjunto de textos para
  clasificarlos de acuerdo a ella como positivas o negativas.

  OM es una disciplina relativamente reciente que utiliza técnicas
  de IR, AI, ML y NLP para recuperar textos de opinión e inducir
  la orientación/polaridad semántica; más informalmente, extraer
  opiniones y sentimientos de textos.

  Incluye subtareas como:
    • Recuperación de Opiniones (Opinion Retrieval)
    • Modelos de Análisis de Sentimiento (Sentiment Analysis)
    • Resumen (Summarization)
Social media


   • La social media es una gran espacio donde se comparten
     opiniones y experiencias de consumidores.
   • Las opiniones pueden ser sobre un producto como un
     teléfono celular o una película; un evento, como un festival
     de música; o una persona como un candidato político.
   • Los textos son:
       •   datos poco-estructurados,
       •   pueden estar mal formados,
       •   ajustado a las condiciones del medio (140 caracteres),
       •   errores de ortografía,
       •   lenguajes particulares, emoticons, multi-lang,
       •   y muchos problemas más tratados por técnicas de
           Procesamiento de Lenguaje Natural.
Opinion Mining is Big Business
       !"#$%&'#()*+,*-.%,,#%/01*234


            !"#$#%$&'#$#$(&#)&*#(&*+)#$,))

 Alguien que quiere comprar una
        ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61
 cámara
             !   7%%8)&9%6&5%..,$2)&1$:&6,;#,/)
   • Busca comentarios y reviews.
        !    -%.,%$,&/0%&<+)2&3%+(02&1&51.,61
 Alguien que ya compró una cámara
             !   =%..,$2)&%$&#2
   • Escribe su experiencia.
             !   >6#2,)&13%+2&20,#6&,?",6#,$5,
   • Fanático vs. contra-fanático.
        !    =1.,61&'1$+9152+6,6
 Fabricante
             !   @,2)&9,,:3158&96%.&5+)2%.,6
   • Obtiene feedback de los
             !   A."6%;,&20,#6&"6%:+52)
     consumidores.
             !   B:<+)2&'168,2#$(&-2612,(#,)
   • Mejora de los productos.
   • Adapta estrategias de márketing.!
Otras aplicaciones Opinion Mining

  Ads placements
    • Relevar e identificar la ubicación para imprimir un ad en la
      social media.
    • Teniendo en cuenta opiniones de la página huésped.
    • Opiniones propias y de la competencia.

  Influencia y Reputación
    • Identificar usuarios líderes y formadores de opinión.
    • Predecir compra de usuarios.

  Opinion Spam
    • Identificar opiniones falsas.
    • Identificar usuarios falsos/sesgados.
El vestido de Venus
El vestido de Venus
   !"#$%&'#()*+,*-.%,,#%/01*234


      !"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+




                                  !
Online social media sentiment apps


   • Twitter sentiment: http://twittersentiment.appspot.com/
   • Twends: http://twendz.waggeneredstrom.com/
   • Twittratr: http://twitrratr.com/
   • SocialMention: http://socialmention.com/
   • . . . +40 empresas en USA

   • Tribatics: http://www.tribatics.com/
   • SocialMetrix: http://socialmetrix.com/
   • Zenzey: http://www.zenzey.com/
   • Keepcon: http://keepcon.com/
   • Ventura*: http://7puentes.com/products/ventura/
Online social media sentiment apps - Issues



    • Funciona para gente famosa!
    • Diferentes estrategias para construir los modelos de
      sentiment analysis causan resultados muy dispares.
    • Basados en diccionarios, rule-based, SVM, EM, etc.
    • Dificultad para separar la polaridad general
    • Buzz (menciones) vs. Opiniones.
    • Muchas veces funciona muy bien. Y algunas muy mal.
No sólo cámaras y vestidos...


    • Películas, obras de teatro, libros, moda.
    • Predicciones, tendencias, humor social.
    • Monitoreo de opinión pública de acciones de gobierno,
      actos de campaña.
    • Feedback sobre congresos, eventos, conferencias.
    • Monitoreo de catástrofes, accidentes, estado del tránsito,
      etc.

    • Comportamiento del mercado de valores. Medir el buzz de
      acciones, bonos, títulos.
¿La voz del pueblo o de un experto?


  Depende de la complejidad de la pregunta. Y de la precisión de
  la respuesta.


 ¿Cuál es la altura del monte
                                   ¿Cuál es la capital de España?
 Kilimanjaro?
                                     1   Barcelona
   1   19,341 ft
                                     2   Madrid
   2   23,341 ft
                                     3   Valencia
   3   15,341 ft
                                     4   Sevilla
   4   21,341 ft
No todas las opiniones valen lo mismo

    • ¿Cómo medir el valor de una opinión?
    • Usuario expertos del dominio.
    • Usuario frecuentes.
    • Spammer?
    • Expertos en un área no necesariamente son expertos en
      otra.

  Confianza
    • Basada en el vínculo (local): User-similarity, entramado
      social.
    • Basada en la reputación (global): Esta recomendación me ha
      sido útil
Subtareas

  Opinion Retrieval & Extraction
    • Recuperar de grandes volúmenes de textos, aquellos que
      contienen referencia al objeto.
    • Luego identificar el contexto de opinión.

  Sentiment Analysis
    • Extraer la polaridad de la opinión
    • Puede ser positivo-negativo, pos-neg-neutro, o una escala
      numérica.

  Opinion summarization
    • Resumir la opinión general de un conjunto de opiniones o
      de una opinón con varias facetas.
    • El resumen puede ser una metáfora visual.
Opinion Retrieval & Extraction

      Me compré una cámara de fotos el día de ayer. Me salió
      muy cara, pero saca unas fotos excelentes y la batería
      dura mucho.

    • Identificar zonas dentro de la página que responden a un
      texto de opinión.
    • Reglas sintácticas, estructurales del sitio.
    • Modelos estadísticos sobre sliding windows.
    • Identificación del objeto, marca.
    • Contexto fijo y variable.
    • Detección de puntos, fin de párrafo, etc.
    • ID, hastag, sinónimos, hiperónimos, etc.
Sentiment Analysis

  Identificar y extraer la orientación subjetiva de un texto.

    • Objetivo, Subjetivo.
    • Positivo, Negativo, Neutro. Rango numérico.

    • Métodos basados en reglas: diccionarios, boosted weak
      rules, etc.
    • Modelos de machine learning: SVM, NB, EM.
    • Prepos: steming, lematización, extracción de palabras por
      función (ADJ, VER, ADV).

    • Sentiment words: Genial, excelente, horrible, malo, peor,
      roto, etc.
Sentiment classification using ML methods. Pang, EMNLP-02




   Este paper aplica diversos métodos de ML supervisado para la
   clasificación de reviews de películas.

   En el preprocesamiento se utilizaron: tags de negación (no,
   pero, sin embargo, no obstante, por el contrario. . . ), unigramas,
   bigramas, POS tags, posición dentro de la oración.

   Se utilizaron métodos Naïve Bayes, Maximum entropy, Support
   vector machine, este último con la mejor performance del 83 %.
Unsupervised review classification. Turney, ACL-02


  Se extrajeron reviews de epinions.com sobre autos, bancos,
  películas y destinos turísticos. El enfoque consta de 3 partes:

    1   POS Tagging. Se extrajeron frases de 2-palabras según
        diversos patrones sintácticos: JJ-NN (Adjective-singular
        common nouns).
    2   Se estima la orientación semantica (SO) de las frases
        utilizando Pointwise mutual information (PMI).
    3   Se calcula el SO promedio para todas las frases.
Unsupervised review classification. Turney, ACL-02


  Pointwise mutual information
                                           P(a ∧ b)
             PMI(word1 , word2 ) = log2
                                          P(a) ∧ P(b)

  Semantic orientation (SO)

     SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor)

  Se puede usar el operador NEAR de AltaVista para buscar las
  frases y calcular los indicadores PMI y SO.
Unsupervised review classification. Turney, ACL-02



  Por último se calcula el SO promedio para todas las frases que
  componen la opinión.

  La performance de este enfoque:
    • autos - 84 %
    • bancos - 80 %
    • películas - 65.83 %
    • destinos turísticos - 70.53 %
Term Subjectivity and Term... Esuli and Sebastiani

   Construye clasificadores a nivel término objetivo-subjetivo y
   positivo-negativo. También de manera semisupervisada.

     • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln
       y Lo de términos Positivos, Negativos y Objetivos.
     • Los términos son synsets de Wordnet
       http://wordnet.princeton.edu/.
     • Y en cada iteración se navega por el grafo resultante de las
       relaciones de cada synset.
     • direct antonymy, similarity, derivedfrom, pertains-to,
       attribute, y also-see...

     • Sentiwordnet http://sentiwordnet.isti.cnr.it/
Opinion summarization & visualization
Opinion summarization & visualization
       Ejemplo: AIT en opinión política!

      Elecciones legislativas 2009!   Controles de Alcoholemia!




                                        Seguimiento Gripe A!




     7puentes.com!                     Análisis Inteligente de Textos!
Opinion summarization & visualization
Opinion summarization & visualization
Opinion summarization & visualization
Opinion summarization & visualization
Herramientas

   • NLTK Natural Language Toolkit http://nltk.org/
   • Freeling http://nlp.lsi.upc.edu/freeling/
   • Mallet MAchine Learning for LanguagE Toolkit
     http://mallet.cs.umass.edu/
   • GATE General Architecture for Text Engineering http://gate.ac.uk/
   • Bow: A Toolkit for Statistical Language Modeling
     http://www.cs.cmu.edu/∼mccallum/bow/
   • Cluto: Software for Clustering High-Dimensional Datasets
     http://glaros.dtc.umn.edu/gkhome/views/cluto
   • icsiboost: Open-source implementation of Boostexter
     http://code.google.com/p/icsiboost/

   • ManyEyes
     http://www-958.ibm.com/software/data/cognos/manyeyes/
   • TwitterStreamGraphs
     http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
Referencias

    • Opinion Mining: Exploiting the Sentiment of the Crowd,
      Diana Maynard, Adam Funk, Kalina Bontcheva. University
      of Sheffield, UK. 1995-2012
    • Sentiment Analysis and Opinion Mining, Bing Liu,
      AAAI-2011, EACL-2012, and Sentiment Analysis
      Symposium, Department of Computer Science, University
      Of Illinois at Chicago
    • Sentiment Analysis and Opinion Mining. Morgan & Claypool
      Publishers. May 2012., Bing Liu.
    • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/
    • Web Data Mining, Bing Liu, Springer, December, 2006
    • Language and Intelligence Group, Università di Pisa.
      http://medialab.di.unipi.it/web/Language+Intelligence/
Gracias por
vuestra !
atención!
Lic. Ernesto Mislej!
ernesto@7puentes.com - @fetnelio !

Contenu connexe

Similaire à Opinion Mining #datafestAr

01-Rol del Comunity Manager y el Social Media Manager.pdf
01-Rol del Comunity Manager y el Social Media Manager.pdf01-Rol del Comunity Manager y el Social Media Manager.pdf
01-Rol del Comunity Manager y el Social Media Manager.pdf
mendozasanchezjose77
 

Similaire à Opinion Mining #datafestAr (20)

Monitoreo de reputación online
Monitoreo de reputación onlineMonitoreo de reputación online
Monitoreo de reputación online
 
Temario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoTemario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamiento
 
¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?
 
"Conducta en la red" 2012
"Conducta en la red" 2012"Conducta en la red" 2012
"Conducta en la red" 2012
 
Encuestafacil
EncuestafacilEncuestafacil
Encuestafacil
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuario
 
Edgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdf
 
SEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEOSEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEO
 
El analisis de sentimientos
El analisis de sentimientosEl analisis de sentimientos
El analisis de sentimientos
 
01-Rol del Comunity Manager y el Social Media Manager.pdf
01-Rol del Comunity Manager y el Social Media Manager.pdf01-Rol del Comunity Manager y el Social Media Manager.pdf
01-Rol del Comunity Manager y el Social Media Manager.pdf
 
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María EcheverriUsabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
 
Marketing&amp;ventas 01
Marketing&amp;ventas 01Marketing&amp;ventas 01
Marketing&amp;ventas 01
 
Analisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfAnalisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdf
 
Introducción al CRO
Introducción al CROIntroducción al CRO
Introducción al CRO
 
Tecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionTecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacion
 
Investigacion de mercado v.2010
Investigacion de mercado v.2010Investigacion de mercado v.2010
Investigacion de mercado v.2010
 
Duoc ai - usabilidad - metodologias
Duoc   ai - usabilidad - metodologiasDuoc   ai - usabilidad - metodologias
Duoc ai - usabilidad - metodologias
 
Ux en 30 minutos
Ux en 30 minutosUx en 30 minutos
Ux en 30 minutos
 
Lean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioLean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuario
 
Conversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esConversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.es
 

Plus de Ernesto Mislej

Plus de Ernesto Mislej (9)

Data Science & Big Data
Data Science & Big DataData Science & Big Data
Data Science & Big Data
 
Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013
 
Data Mining
Data MiningData Mining
Data Mining
 
Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4
 
Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3
 
Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2
 
Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5
 
Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011
 
Análisis Inteligente de Textos
Análisis Inteligente de TextosAnálisis Inteligente de Textos
Análisis Inteligente de Textos
 

Dernier

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 

Dernier (15)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 

Opinion Mining #datafestAr

  • 1. Minado de Opiniones! #datafest! Lic. Ernesto Mislej! ernesto@7puentes.com - @fetnelio ! Datafest – La Nación & Univ. Austral ! Noviembre 2012 – BA – Argentina ! 7puentes.com!
  • 2. Outline • Intro & Background • Modelo Formal • Subtareas • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization) • Problemas y desafíos • Referencias
  • 3. Intro El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas. OM es una disciplina relativamente reciente que utiliza técnicas de IR, AI, ML y NLP para recuperar textos de opinión e inducir la orientación/polaridad semántica; más informalmente, extraer opiniones y sentimientos de textos. Incluye subtareas como: • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization)
  • 4. Social media • La social media es una gran espacio donde se comparten opiniones y experiencias de consumidores. • Las opiniones pueden ser sobre un producto como un teléfono celular o una película; un evento, como un festival de música; o una persona como un candidato político. • Los textos son: • datos poco-estructurados, • pueden estar mal formados, • ajustado a las condiciones del medio (140 caracteres), • errores de ortografía, • lenguajes particulares, emoticons, multi-lang, • y muchos problemas más tratados por técnicas de Procesamiento de Lenguaje Natural.
  • 5. Opinion Mining is Big Business !"#$%&'#()*+,*-.%,,#%/01*234 !"#$#%$&'#$#$(&#)&*#(&*+)#$,)) Alguien que quiere comprar una ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61 cámara ! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/) • Busca comentarios y reviews. ! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61 Alguien que ya compró una cámara ! =%..,$2)&%$&#2 • Escribe su experiencia. ! >6#2,)&13%+2&20,#6&,?",6#,$5, • Fanático vs. contra-fanático. ! =1.,61&'1$+9152+6,6 Fabricante ! @,2)&9,,:3158&96%.&5+)2%.,6 • Obtiene feedback de los ! A."6%;,&20,#6&"6%:+52) consumidores. ! B:<+)2&'168,2#$(&-2612,(#,) • Mejora de los productos. • Adapta estrategias de márketing.!
  • 6. Otras aplicaciones Opinion Mining Ads placements • Relevar e identificar la ubicación para imprimir un ad en la social media. • Teniendo en cuenta opiniones de la página huésped. • Opiniones propias y de la competencia. Influencia y Reputación • Identificar usuarios líderes y formadores de opinión. • Predecir compra de usuarios. Opinion Spam • Identificar opiniones falsas. • Identificar usuarios falsos/sesgados.
  • 8. El vestido de Venus !"#$%&'#()*+,*-.%,,#%/01*234 !"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+ !
  • 9. Online social media sentiment apps • Twitter sentiment: http://twittersentiment.appspot.com/ • Twends: http://twendz.waggeneredstrom.com/ • Twittratr: http://twitrratr.com/ • SocialMention: http://socialmention.com/ • . . . +40 empresas en USA • Tribatics: http://www.tribatics.com/ • SocialMetrix: http://socialmetrix.com/ • Zenzey: http://www.zenzey.com/ • Keepcon: http://keepcon.com/ • Ventura*: http://7puentes.com/products/ventura/
  • 10. Online social media sentiment apps - Issues • Funciona para gente famosa! • Diferentes estrategias para construir los modelos de sentiment analysis causan resultados muy dispares. • Basados en diccionarios, rule-based, SVM, EM, etc. • Dificultad para separar la polaridad general • Buzz (menciones) vs. Opiniones. • Muchas veces funciona muy bien. Y algunas muy mal.
  • 11. No sólo cámaras y vestidos... • Películas, obras de teatro, libros, moda. • Predicciones, tendencias, humor social. • Monitoreo de opinión pública de acciones de gobierno, actos de campaña. • Feedback sobre congresos, eventos, conferencias. • Monitoreo de catástrofes, accidentes, estado del tránsito, etc. • Comportamiento del mercado de valores. Medir el buzz de acciones, bonos, títulos.
  • 12. ¿La voz del pueblo o de un experto? Depende de la complejidad de la pregunta. Y de la precisión de la respuesta. ¿Cuál es la altura del monte ¿Cuál es la capital de España? Kilimanjaro? 1 Barcelona 1 19,341 ft 2 Madrid 2 23,341 ft 3 Valencia 3 15,341 ft 4 Sevilla 4 21,341 ft
  • 13. No todas las opiniones valen lo mismo • ¿Cómo medir el valor de una opinión? • Usuario expertos del dominio. • Usuario frecuentes. • Spammer? • Expertos en un área no necesariamente son expertos en otra. Confianza • Basada en el vínculo (local): User-similarity, entramado social. • Basada en la reputación (global): Esta recomendación me ha sido útil
  • 14. Subtareas Opinion Retrieval & Extraction • Recuperar de grandes volúmenes de textos, aquellos que contienen referencia al objeto. • Luego identificar el contexto de opinión. Sentiment Analysis • Extraer la polaridad de la opinión • Puede ser positivo-negativo, pos-neg-neutro, o una escala numérica. Opinion summarization • Resumir la opinión general de un conjunto de opiniones o de una opinón con varias facetas. • El resumen puede ser una metáfora visual.
  • 15. Opinion Retrieval & Extraction Me compré una cámara de fotos el día de ayer. Me salió muy cara, pero saca unas fotos excelentes y la batería dura mucho. • Identificar zonas dentro de la página que responden a un texto de opinión. • Reglas sintácticas, estructurales del sitio. • Modelos estadísticos sobre sliding windows. • Identificación del objeto, marca. • Contexto fijo y variable. • Detección de puntos, fin de párrafo, etc. • ID, hastag, sinónimos, hiperónimos, etc.
  • 16. Sentiment Analysis Identificar y extraer la orientación subjetiva de un texto. • Objetivo, Subjetivo. • Positivo, Negativo, Neutro. Rango numérico. • Métodos basados en reglas: diccionarios, boosted weak rules, etc. • Modelos de machine learning: SVM, NB, EM. • Prepos: steming, lematización, extracción de palabras por función (ADJ, VER, ADV). • Sentiment words: Genial, excelente, horrible, malo, peor, roto, etc.
  • 17. Sentiment classification using ML methods. Pang, EMNLP-02 Este paper aplica diversos métodos de ML supervisado para la clasificación de reviews de películas. En el preprocesamiento se utilizaron: tags de negación (no, pero, sin embargo, no obstante, por el contrario. . . ), unigramas, bigramas, POS tags, posición dentro de la oración. Se utilizaron métodos Naïve Bayes, Maximum entropy, Support vector machine, este último con la mejor performance del 83 %.
  • 18. Unsupervised review classification. Turney, ACL-02 Se extrajeron reviews de epinions.com sobre autos, bancos, películas y destinos turísticos. El enfoque consta de 3 partes: 1 POS Tagging. Se extrajeron frases de 2-palabras según diversos patrones sintácticos: JJ-NN (Adjective-singular common nouns). 2 Se estima la orientación semantica (SO) de las frases utilizando Pointwise mutual information (PMI). 3 Se calcula el SO promedio para todas las frases.
  • 19. Unsupervised review classification. Turney, ACL-02 Pointwise mutual information P(a ∧ b) PMI(word1 , word2 ) = log2 P(a) ∧ P(b) Semantic orientation (SO) SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor) Se puede usar el operador NEAR de AltaVista para buscar las frases y calcular los indicadores PMI y SO.
  • 20. Unsupervised review classification. Turney, ACL-02 Por último se calcula el SO promedio para todas las frases que componen la opinión. La performance de este enfoque: • autos - 84 % • bancos - 80 % • películas - 65.83 % • destinos turísticos - 70.53 %
  • 21. Term Subjectivity and Term... Esuli and Sebastiani Construye clasificadores a nivel término objetivo-subjetivo y positivo-negativo. También de manera semisupervisada. • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln y Lo de términos Positivos, Negativos y Objetivos. • Los términos son synsets de Wordnet http://wordnet.princeton.edu/. • Y en cada iteración se navega por el grafo resultante de las relaciones de cada synset. • direct antonymy, similarity, derivedfrom, pertains-to, attribute, y also-see... • Sentiwordnet http://sentiwordnet.isti.cnr.it/
  • 22. Opinion summarization & visualization
  • 23. Opinion summarization & visualization Ejemplo: AIT en opinión política! Elecciones legislativas 2009! Controles de Alcoholemia! Seguimiento Gripe A! 7puentes.com! Análisis Inteligente de Textos!
  • 24. Opinion summarization & visualization
  • 25. Opinion summarization & visualization
  • 26. Opinion summarization & visualization
  • 27. Opinion summarization & visualization
  • 28. Herramientas • NLTK Natural Language Toolkit http://nltk.org/ • Freeling http://nlp.lsi.upc.edu/freeling/ • Mallet MAchine Learning for LanguagE Toolkit http://mallet.cs.umass.edu/ • GATE General Architecture for Text Engineering http://gate.ac.uk/ • Bow: A Toolkit for Statistical Language Modeling http://www.cs.cmu.edu/∼mccallum/bow/ • Cluto: Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/views/cluto • icsiboost: Open-source implementation of Boostexter http://code.google.com/p/icsiboost/ • ManyEyes http://www-958.ibm.com/software/data/cognos/manyeyes/ • TwitterStreamGraphs http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
  • 29. Referencias • Opinion Mining: Exploiting the Sentiment of the Crowd, Diana Maynard, Adam Funk, Kalina Bontcheva. University of Sheffield, UK. 1995-2012 • Sentiment Analysis and Opinion Mining, Bing Liu, AAAI-2011, EACL-2012, and Sentiment Analysis Symposium, Department of Computer Science, University Of Illinois at Chicago • Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. May 2012., Bing Liu. • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/ • Web Data Mining, Bing Liu, Springer, December, 2006 • Language and Intelligence Group, Università di Pisa. http://medialab.di.unipi.it/web/Language+Intelligence/
  • 30. Gracias por vuestra ! atención! Lic. Ernesto Mislej! ernesto@7puentes.com - @fetnelio !