SlideShare una empresa de Scribd logo
1 de 26
Análisis de sentido a textos cortos Alumno: Jorge Gálvez Gajardo Profesor Guía: Rodrigo Alfaro Arancibia Profesor Correferente: Guillermo Cabrera Guerrero
Contenido Introducción Objetivos Problemática Representación de Lenguaje Natural Máquinas de Aprendizaje NaïveBayes Support Vector Machine Software Set de Pruebas Conclusiones y Trabajo Futuro
Introducción Trabajar en tesis abordando problemática actual y que podría acrecentarse. Gran cantidad de información que se genera en Internet. 60 Billones de páginas web (según worldwidewebsize.com) 1.100 millones de usuarios de internet y 2.000 para 2016 (según Universidad de Iowa) 143 Millones de blogs, 1 millón de posts en las últimas 24 horas. (según blogpulse.com)
Objetivos Objetivo General: Utilizar máquinas de aprendizaje para categorizar textos cortos en positivo o negativo, según sea su sentido. Objetivos Específicos: Utilizar máquinas de aprendizaje, eligiendo NaïveBayes y Maquinas de Soporte Vectorial como técnicas  para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas. Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar qué forma es la más eficiente para determinado tipo de texto. Habilitar una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.
Problemática Se están produciendo grandes cambios en la sociedad al comentar lo que nos parece bien o mal. Analizar datos recolectados de internet para analizar patrones y tendencias.  Automatizar esta tarea para lograr una mayor cantidad de datos a analizar. Apoyarse en técnicas de Recuperación de Información y en algoritmos de Machine Learning
Representación de lenguaje natural Indexar términos: Boolean retrieval Frecuencia de términos y peso Term frequency  Inverse document frequency TF-IDF Modelo de espacio vectorial Similitud coseno = =
Máquinas de Aprendizaje ¿Cómo podemos usar computadoras para descubrir y describir patrones basados en comportamientos? Aprendizaje supervisado Entrenamiento etiquetado Aprendizaje no supervisado Entrenamiento no etiquetado Aprendizaje semi supervisado Aplica una combinación de las dos técnicas anteriores
NaïveBayes
Naïve Bayes Es un clasificador probabilístico Cada ejemplo observado va a modificar la probabilidad de que la hipótesis formulada sea correcta Las palabras en el documento se tratan de forma independiente del contexto : Número de ocurrencias de t en los documentos de entrenamiento de la clase c : Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c
Naïve Bayes Aplicando Laplacesmoothing = : Número de términos del vocabulario de entrenamiento de las dos clases
Support Vector Machine
Support Vector Machine
Support Vector Machine
Set de Pruebas Set de datos: Obtenida de Internet MovieDataBase (IMDb), archivada por rec.arts.movies.reviews. 1000 comentarios positivos y 1000 comentarios negativos Introducido en Pang/Lee ACL 2004
Set de Pruebas NaïveBayes 660 Textos de Entrenamiento y 100 de Prueba.
Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Accuracy Costo Kernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 84% Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 84% 29.054 Palabras
Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Stop Words Accuracy Costo Kernel: Sigmoid, Gamma: 0.5, Costo: 0.1, Accuracy: 85% 28.489 Palabras
Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Stemming Accuracy Costo Kernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 85% Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 85% Kernel: Sigmoid, Gamma: 0.1, Costo: 0.1, Accuracy: 85% 21.341 Palabras
Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Stop Words y Stemming Accuracy Costo Kernel: Sigmoid, Gamma: 0.3, Costo: 0.1, Accuracy: 84% 20.999 Palabras
Set de Pruebas – Otras Técnicas
Software – Caso de uso de alto nivel
Software – caso de uso generar modelo manual
Software – Interfaz Modelo Automático
Software – Diagrama de Actividad
Conclusiones y Trabajo Futuro Se ha utilizado NaïveBayes y Maquinas de Soporte Vectorial para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas. Los resultados obtenidos se han comparado con las distintas técnicas. Habilito una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido. Aplicar técnicas que aumenten el porcentaje de accuracy.
¿PREGUNTAS?

Más contenido relacionado

Destacado (7)

Caligramas
CaligramasCaligramas
Caligramas
 
Los caligramas
Los caligramasLos caligramas
Los caligramas
 
Caligramas
CaligramasCaligramas
Caligramas
 
Caligramas
CaligramasCaligramas
Caligramas
 
Caligramas
CaligramasCaligramas
Caligramas
 
Caligramas
CaligramasCaligramas
Caligramas
 
Paginas de matematicas
Paginas de matematicasPaginas de matematicas
Paginas de matematicas
 

Similar a Clasificación de Textos

Tecleras en educación
Tecleras en educaciónTecleras en educación
Tecleras en educación
sparky32
 
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptxPresentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
cesarmalave7
 
Diseño experimental
Diseño experimentalDiseño experimental
Diseño experimental
jtjcinvestav
 
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
Luciana Dubiau
 

Similar a Clasificación de Textos (20)

Evaluación de diferentes estrategias de muestreo para tratar el problema de ...
Evaluación de diferentes estrategias de muestreo  para tratar el problema de ...Evaluación de diferentes estrategias de muestreo  para tratar el problema de ...
Evaluación de diferentes estrategias de muestreo para tratar el problema de ...
 
Optimizando EAs
Optimizando EAsOptimizando EAs
Optimizando EAs
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Optimizando Algoritmos Evolutivos - MAEB
Optimizando Algoritmos Evolutivos - MAEBOptimizando Algoritmos Evolutivos - MAEB
Optimizando Algoritmos Evolutivos - MAEB
 
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Propuesta_Investigación
Propuesta_InvestigaciónPropuesta_Investigación
Propuesta_Investigación
 
presentacion.pdf
presentacion.pdfpresentacion.pdf
presentacion.pdf
 
Tecleras en educación
Tecleras en educaciónTecleras en educación
Tecleras en educación
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
 
Resumen automático en Twitter
Resumen automático en TwitterResumen automático en Twitter
Resumen automático en Twitter
 
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptxPresentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
 
Machine Learning en Recursos Humanos
Machine Learning en Recursos HumanosMachine Learning en Recursos Humanos
Machine Learning en Recursos Humanos
 
Diseño experimental
Diseño experimentalDiseño experimental
Diseño experimental
 
Documentación útil
Documentación útilDocumentación útil
Documentación útil
 
SHA CEPES un sistema hipermedia adaptativo basado en estilos de aprendizaje
SHA CEPES un sistema hipermedia adaptativo basado en estilos de aprendizajeSHA CEPES un sistema hipermedia adaptativo basado en estilos de aprendizaje
SHA CEPES un sistema hipermedia adaptativo basado en estilos de aprendizaje
 
El Libro de la Inteligencia Artificial (versión 5)
El Libro de la Inteligencia Artificial (versión 5)El Libro de la Inteligencia Artificial (versión 5)
El Libro de la Inteligencia Artificial (versión 5)
 
Errores
ErroresErrores
Errores
 
Fundamentos de Lenguaje de programacion
Fundamentos de Lenguaje de programacionFundamentos de Lenguaje de programacion
Fundamentos de Lenguaje de programacion
 
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
Presentación ASAI 2013 - Análisis de Sentimientos sobre un Corpus en Español ...
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (10)

Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 

Clasificación de Textos

  • 1. Análisis de sentido a textos cortos Alumno: Jorge Gálvez Gajardo Profesor Guía: Rodrigo Alfaro Arancibia Profesor Correferente: Guillermo Cabrera Guerrero
  • 2. Contenido Introducción Objetivos Problemática Representación de Lenguaje Natural Máquinas de Aprendizaje NaïveBayes Support Vector Machine Software Set de Pruebas Conclusiones y Trabajo Futuro
  • 3. Introducción Trabajar en tesis abordando problemática actual y que podría acrecentarse. Gran cantidad de información que se genera en Internet. 60 Billones de páginas web (según worldwidewebsize.com) 1.100 millones de usuarios de internet y 2.000 para 2016 (según Universidad de Iowa) 143 Millones de blogs, 1 millón de posts en las últimas 24 horas. (según blogpulse.com)
  • 4. Objetivos Objetivo General: Utilizar máquinas de aprendizaje para categorizar textos cortos en positivo o negativo, según sea su sentido. Objetivos Específicos: Utilizar máquinas de aprendizaje, eligiendo NaïveBayes y Maquinas de Soporte Vectorial como técnicas para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas. Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar qué forma es la más eficiente para determinado tipo de texto. Habilitar una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.
  • 5. Problemática Se están produciendo grandes cambios en la sociedad al comentar lo que nos parece bien o mal. Analizar datos recolectados de internet para analizar patrones y tendencias. Automatizar esta tarea para lograr una mayor cantidad de datos a analizar. Apoyarse en técnicas de Recuperación de Información y en algoritmos de Machine Learning
  • 6. Representación de lenguaje natural Indexar términos: Boolean retrieval Frecuencia de términos y peso Term frequency Inverse document frequency TF-IDF Modelo de espacio vectorial Similitud coseno = =
  • 7. Máquinas de Aprendizaje ¿Cómo podemos usar computadoras para descubrir y describir patrones basados en comportamientos? Aprendizaje supervisado Entrenamiento etiquetado Aprendizaje no supervisado Entrenamiento no etiquetado Aprendizaje semi supervisado Aplica una combinación de las dos técnicas anteriores
  • 9. Naïve Bayes Es un clasificador probabilístico Cada ejemplo observado va a modificar la probabilidad de que la hipótesis formulada sea correcta Las palabras en el documento se tratan de forma independiente del contexto : Número de ocurrencias de t en los documentos de entrenamiento de la clase c : Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c
  • 10. Naïve Bayes Aplicando Laplacesmoothing = : Número de términos del vocabulario de entrenamiento de las dos clases
  • 14. Set de Pruebas Set de datos: Obtenida de Internet MovieDataBase (IMDb), archivada por rec.arts.movies.reviews. 1000 comentarios positivos y 1000 comentarios negativos Introducido en Pang/Lee ACL 2004
  • 15. Set de Pruebas NaïveBayes 660 Textos de Entrenamiento y 100 de Prueba.
  • 16. Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Accuracy Costo Kernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 84% Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 84% 29.054 Palabras
  • 17. Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Stop Words Accuracy Costo Kernel: Sigmoid, Gamma: 0.5, Costo: 0.1, Accuracy: 85% 28.489 Palabras
  • 18. Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Stemming Accuracy Costo Kernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 85% Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 85% Kernel: Sigmoid, Gamma: 0.1, Costo: 0.1, Accuracy: 85% 21.341 Palabras
  • 19. Set de Pruebas SVM 660 Textos de Entrenamiento y 100 de Prueba. Stop Words y Stemming Accuracy Costo Kernel: Sigmoid, Gamma: 0.3, Costo: 0.1, Accuracy: 84% 20.999 Palabras
  • 20. Set de Pruebas – Otras Técnicas
  • 21. Software – Caso de uso de alto nivel
  • 22. Software – caso de uso generar modelo manual
  • 23. Software – Interfaz Modelo Automático
  • 24. Software – Diagrama de Actividad
  • 25. Conclusiones y Trabajo Futuro Se ha utilizado NaïveBayes y Maquinas de Soporte Vectorial para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas. Los resultados obtenidos se han comparado con las distintas técnicas. Habilito una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido. Aplicar técnicas que aumenten el porcentaje de accuracy.