SlideShare une entreprise Scribd logo
1  sur  20
Evaluación de diferentes estrategias de muestreo para tratar
el problema de la construcción del diccionario para un
clasificador Naïves Bayes de tuits.
Francisco Berrizbeitia
Noviembre 2014
Queremos encontrar una manera automática de
clasificar Tuits
Machine Learning: Clasificadores automáticos
Agenda
• Bag Of Words
• El problema de la selección de atributos o generación del
diccionario
• Preprocesamiento:
– Eliminación de ruido
– Eliminación de terminaciones
• Descripción de los datos
• Descripción de método propuesto
• Resultados
• Observaciones
• Conclusiones
Bag of Words
El tratamiento de tuits en un contexto de
clasificación se realiza utilizando la técnica de
«Bag Of Words»
Bag of words
Selección de atributos
Uno de los problemas al trabajar con esta técnica es el que el
número de dimensiones puede llegar a ser demasiado
grande.
Quisiéramos construir un diccionario con el menor número de
palabras posibles que nos permita tener una cobertura de al
menos 2 palabras para cada tuit
Construcción del diccionario
Para atacar este problema primeros se eliminar las palabras
muy comunes que no aportaran ningún valor discriminatorio
(Stopwords).
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
Construcción del diccionario
Un segundo paso consiste el eliminar las terminaciones
(Stemming) tratando de encontrar las raíces de las palabras.
Obama administration would back sanctions against Venezuela: official - Reuters
http:t.cor1diiCGDhn
obama administration back sanctions venezuela official
obama administr back sanction venezuela offici
Existen varia técnicas para hacer esto, nosotros utilizamos el
algoritmo de Porter
Planteamiento del problema
Queremos responder las siguientes preguntas:
• ¿Cuántos tuits necesito para construir un diccionario que
me garantice una buena cobertura?
• ¿La calidad del diccionario en términos de cobertura
variará si el conjunto de tuits para crear el diccionario se
toma utilizando MAS o Estratificando por temas?
Método Utilizado
Para obtener el número
de tuits que requerimos
para el diccionario,
diseñamos e
implementamos el
siguiente algoritmo.
Método Utilizado
Una vez obtenido el número de tuits utilizando el algoritmo
anterior , generamos un diccionario utilizando MAS y uno
realizando muestreo estratificado por temas.
Para medir la calidad del diccionario se obtuvieron varias
muestras de 100 mensajes (Utilizando MAS) y se cuantifico la
cobertura sobre la muestra.
Descripción de los datos
• Se recuperaron 6793 tuits, en idioma ingles, creados entre
el 18 y el 20 de Noviembre sobre los siguientes temas
• Obama: 1000
• ukraine: 681
• ISIS: 547
• New York: 1080
• Siria: 119
• FARC: 102
• Venezuela: 450
• London: 862
• gunman: 627
• ferguson: 754
• amnesty: 571
Descripción de los datos
• Sobre este conjunto de datos se realizo un MAS de 3000
elementos para asegurar la aleatoriedad de la población
• A los mensajes de esta nueva población se le aplicaron los
procesos de reducción de ruido y stemming.
• Todos los experimentos se hicieron sobre los mensajes sin
Stop Words y Stemmed
Resultados
Se corrió el algoritmo cuatro veces variando los parámetros
de ganancia de información y el umbral de parada.
5 tuits seguidos aportaron menos de 2
palabras nuevas al diccionario
Resultados
Se genero un diccionario realizando un MAS de 234 tuits
sobre la población y se cuantifico la cobertura en 5 muestras
independientes de la misma población.
Resultados
Se genero otro diccionario realizando un muestreo
estratificado por temas de 234 tuits sobre la población y se
cuantifico la cobertura en 5 muestras independientes de la
misma población.
La cantidad de tuits a tomar por estrato se calculo de la siguiente manera:
1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional
2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
Resultados
Ambos diccionarios de comportan de manera muy similar
Resultados
La tasa de cobertura es ligeramente mejor para el diccionario
generado a través de un MAS
Conclusiones
• Al parecer es posible construir un diccionario con una
cobertura superior al 95% con unos 240 tuits generando
un diccionario de cerca de 1100 entradas.
• Estratificar por temas no aporta ninguna ganancia en la
construcción del diccionario.
Gracias
Francisco Berrizbeitia
Noviembre 2014

Contenu connexe

Similaire à Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANYabed Contreras Zambrano
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busquedamercenaries128
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busquedamercenaries128
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internetNITZARINDANI98
 
Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1estefania guizado
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internetKeila Jaimes
 
1.busquedad de informacion en internet
1.busquedad  de informacion en internet1.busquedad  de informacion en internet
1.busquedad de informacion en internetCeleste9829
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine LearningStratebi
 
Busqueda de la informacion en internet
Busqueda de la informacion en internet Busqueda de la informacion en internet
Busqueda de la informacion en internet susana030198
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susysusana030198
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internetTania070299
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internetTania Gabriela
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internetkinverli3
 
1. Búsqueda de información en internet
1.  Búsqueda de información en internet1.  Búsqueda de información en internet
1. Búsqueda de información en internetTania Gabriela Ramirez
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónEduardo Mendez
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...eMadrid network
 
Cómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesCómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesNatzir Turrado
 
Búsqueda de información en internet
Búsqueda de información en internetBúsqueda de información en internet
Búsqueda de información en internetangeles alvarez
 

Similaire à Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits (20)

Aplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESANAplicaciones de PLN en empresas - Fab Lab ESAN
Aplicaciones de PLN en empresas - Fab Lab ESAN
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
Buscadores y metodos de busqueda
Buscadores y metodos de busquedaBuscadores y metodos de busqueda
Buscadores y metodos de busqueda
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
Busqueda de informacion en internet
Busqueda de informacion en internet Busqueda de informacion en internet
Busqueda de informacion en internet
 
Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1Búsqueda de información en internet actividad 1
Búsqueda de información en internet actividad 1
 
1 búsqueda de información en internet
1 búsqueda de información en internet1 búsqueda de información en internet
1 búsqueda de información en internet
 
1.busquedad de informacion en internet
1.busquedad  de informacion en internet1.busquedad  de informacion en internet
1.busquedad de informacion en internet
 
Introduccion a Machine Learning
Introduccion a Machine LearningIntroduccion a Machine Learning
Introduccion a Machine Learning
 
Busqueda de la informacion en internet
Busqueda de la informacion en internet Busqueda de la informacion en internet
Busqueda de la informacion en internet
 
Busqueda de la informacion en internet susy
Busqueda de la informacion en internet susyBusqueda de la informacion en internet susy
Busqueda de la informacion en internet susy
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. búsqueda de información en internet
1.  búsqueda de información en internet1.  búsqueda de información en internet
1. búsqueda de información en internet
 
1. Búsqueda de información en internet
1.  Búsqueda de información en internet1.  Búsqueda de información en internet
1. Búsqueda de información en internet
 
Unidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la informaciónUnidad 1. búsqueda, veracidad y seguridad de la información
Unidad 1. búsqueda, veracidad y seguridad de la información
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Cómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitalesCómo GPT-3 puede ayudar a los analistas digitales
Cómo GPT-3 puede ayudar a los analistas digitales
 
Búsqueda de la información en Internet. Capítulo 1.
 Búsqueda de la información en Internet. Capítulo 1. Búsqueda de la información en Internet. Capítulo 1.
Búsqueda de la información en Internet. Capítulo 1.
 
Búsqueda de información en internet
Búsqueda de información en internetBúsqueda de información en internet
Búsqueda de información en internet
 

Plus de Francisco Berrizbeitia

News construction from microblogging posts using open data
News construction from microblogging posts using open data News construction from microblogging posts using open data
News construction from microblogging posts using open data Francisco Berrizbeitia
 
News construction from microblogging post using open data
News construction from microblogging post using open dataNews construction from microblogging post using open data
News construction from microblogging post using open dataFrancisco Berrizbeitia
 
Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaFrancisco Berrizbeitia
 
Introducción al el mercadeo en Internet
Introducción al el mercadeo en InternetIntroducción al el mercadeo en Internet
Introducción al el mercadeo en InternetFrancisco Berrizbeitia
 
2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuelaFrancisco Berrizbeitia
 
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...Francisco Berrizbeitia
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Francisco Berrizbeitia
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFrancisco Berrizbeitia
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualFrancisco Berrizbeitia
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoFrancisco Berrizbeitia
 

Plus de Francisco Berrizbeitia (20)

News construction from microblogging posts using open data
News construction from microblogging posts using open data News construction from microblogging posts using open data
News construction from microblogging posts using open data
 
News construction from microblogging post using open data
News construction from microblogging post using open dataNews construction from microblogging post using open data
News construction from microblogging post using open data
 
Autosimilaridad en vinculaciones
Autosimilaridad en vinculacionesAutosimilaridad en vinculaciones
Autosimilaridad en vinculaciones
 
Vinculaciones autosimilares
Vinculaciones autosimilaresVinculaciones autosimilares
Vinculaciones autosimilares
 
Trabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimediaTrabajo 1 - Definición de un sitio web de contenido multimedia
Trabajo 1 - Definición de un sitio web de contenido multimedia
 
Introducción al el mercadeo en Internet
Introducción al el mercadeo en InternetIntroducción al el mercadeo en Internet
Introducción al el mercadeo en Internet
 
¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?¿ Cómo empezar con mi sitio web?
¿ Cómo empezar con mi sitio web?
 
2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela2013 digital future_in_focus_venezuela
2013 digital future_in_focus_venezuela
 
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...Tiene sentido crear contenido audiovisual para ser difundido  exclusivamente ...
Tiene sentido crear contenido audiovisual para ser difundido exclusivamente ...
 
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3Caracterización de la popularidad de los archivos de un wiki a gran escala v3
Caracterización de la popularidad de los archivos de un wiki a gran escala v3
 
Formación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en manoFormación en salud y seguridad industrial llave en mano
Formación en salud y seguridad industrial llave en mano
 
Listado de cursos manual rse
Listado de cursos manual rseListado de cursos manual rse
Listado de cursos manual rse
 
Text mining
Text miningText mining
Text mining
 
AID Aprendizaje - Nosotros
AID Aprendizaje - NosotrosAID Aprendizaje - Nosotros
AID Aprendizaje - Nosotros
 
Keylight ae user guide
Keylight ae user guideKeylight ae user guide
Keylight ae user guide
 
Personalizacion de blogspot
Personalizacion de blogspotPersonalizacion de blogspot
Personalizacion de blogspot
 
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisualTrabajo 1 - Conceptualización del proyecto de difusión audiovisual
Trabajo 1 - Conceptualización del proyecto de difusión audiovisual
 
Clase 3 estrategias de difusion
Clase 3   estrategias de difusionClase 3   estrategias de difusion
Clase 3 estrategias de difusion
 
Emprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exitoEmprendimiento en web 2.0 / Cifras y casos de exito
Emprendimiento en web 2.0 / Cifras y casos de exito
 
Clase02
Clase02Clase02
Clase02
 

Dernier

Derivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidianaDerivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidianapabv24
 
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESLIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESGuiseppyCuchilloMira
 
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdfAntequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdffrank0071
 
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdfLOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdfBRITSYVIRGINIAVIGILI
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...Champs Elysee Roldan
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdffrank0071
 
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptxCASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptx4bsbmpg98x
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando PythonErnesto Crespo
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.ChiquinquirMilagroTo
 
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...frank0071
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPaola Rodríguez
 
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCREINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCbayolethBarboza
 
Homo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoHomo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoMIGUELSANTIAGODORADO
 
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdfHobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdffrank0071
 
hipotalamo hipofisis clase de endocrinología
hipotalamo hipofisis clase de endocrinologíahipotalamo hipofisis clase de endocrinología
hipotalamo hipofisis clase de endocrinologíawaldyGamer
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfoliverjverde
 
Soporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoSoporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoNAYDA JIMENEZ
 
La señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosLa señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosDomingoAlbertoCorpor1
 
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptxEl Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptxangelorihuela4
 
COMBATE 02 DE MAYO O COMBATE DE CALLAO.docx
COMBATE 02 DE MAYO O COMBATE DE CALLAO.docxCOMBATE 02 DE MAYO O COMBATE DE CALLAO.docx
COMBATE 02 DE MAYO O COMBATE DE CALLAO.docxElianiLazo
 

Dernier (20)

Derivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidianaDerivadas- sus aplicaciones en la vida cotidiana
Derivadas- sus aplicaciones en la vida cotidiana
 
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESLIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
 
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdfAntequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
Antequera, L. - Historia desconocida del descubrimiento de América [2021].pdf
 
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdfLOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
LOS PRIMEROS PSICÓLOGOS EXPERIMENTALES (1).pdf
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdf
 
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptxCASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.
 
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibras
 
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCREINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
 
Homo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoHomo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominido
 
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdfHobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
 
hipotalamo hipofisis clase de endocrinología
hipotalamo hipofisis clase de endocrinologíahipotalamo hipofisis clase de endocrinología
hipotalamo hipofisis clase de endocrinología
 
Mapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdfMapa Conceptual Modelos de Comunicación .pdf
Mapa Conceptual Modelos de Comunicación .pdf
 
Soporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoSoporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basico
 
La señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malosLa señal de los higos buenos y los higos malos
La señal de los higos buenos y los higos malos
 
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptxEl Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
El Gran Atractor, la misteriosa fuerza que está halando a la Vía Láctea.pptx
 
COMBATE 02 DE MAYO O COMBATE DE CALLAO.docx
COMBATE 02 DE MAYO O COMBATE DE CALLAO.docxCOMBATE 02 DE MAYO O COMBATE DE CALLAO.docx
COMBATE 02 DE MAYO O COMBATE DE CALLAO.docx
 

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

  • 1. Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción del diccionario para un clasificador Naïves Bayes de tuits. Francisco Berrizbeitia Noviembre 2014
  • 2. Queremos encontrar una manera automática de clasificar Tuits Machine Learning: Clasificadores automáticos
  • 3. Agenda • Bag Of Words • El problema de la selección de atributos o generación del diccionario • Preprocesamiento: – Eliminación de ruido – Eliminación de terminaciones • Descripción de los datos • Descripción de método propuesto • Resultados • Observaciones • Conclusiones
  • 4. Bag of Words El tratamiento de tuits en un contexto de clasificación se realiza utilizando la técnica de «Bag Of Words»
  • 6. Selección de atributos Uno de los problemas al trabajar con esta técnica es el que el número de dimensiones puede llegar a ser demasiado grande. Quisiéramos construir un diccionario con el menor número de palabras posibles que nos permita tener una cobertura de al menos 2 palabras para cada tuit
  • 7. Construcción del diccionario Para atacar este problema primeros se eliminar las palabras muy comunes que no aportaran ningún valor discriminatorio (Stopwords). Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official
  • 8. Construcción del diccionario Un segundo paso consiste el eliminar las terminaciones (Stemming) tratando de encontrar las raíces de las palabras. Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official obama administr back sanction venezuela offici Existen varia técnicas para hacer esto, nosotros utilizamos el algoritmo de Porter
  • 9. Planteamiento del problema Queremos responder las siguientes preguntas: • ¿Cuántos tuits necesito para construir un diccionario que me garantice una buena cobertura? • ¿La calidad del diccionario en términos de cobertura variará si el conjunto de tuits para crear el diccionario se toma utilizando MAS o Estratificando por temas?
  • 10. Método Utilizado Para obtener el número de tuits que requerimos para el diccionario, diseñamos e implementamos el siguiente algoritmo.
  • 11. Método Utilizado Una vez obtenido el número de tuits utilizando el algoritmo anterior , generamos un diccionario utilizando MAS y uno realizando muestreo estratificado por temas. Para medir la calidad del diccionario se obtuvieron varias muestras de 100 mensajes (Utilizando MAS) y se cuantifico la cobertura sobre la muestra.
  • 12. Descripción de los datos • Se recuperaron 6793 tuits, en idioma ingles, creados entre el 18 y el 20 de Noviembre sobre los siguientes temas • Obama: 1000 • ukraine: 681 • ISIS: 547 • New York: 1080 • Siria: 119 • FARC: 102 • Venezuela: 450 • London: 862 • gunman: 627 • ferguson: 754 • amnesty: 571
  • 13. Descripción de los datos • Sobre este conjunto de datos se realizo un MAS de 3000 elementos para asegurar la aleatoriedad de la población • A los mensajes de esta nueva población se le aplicaron los procesos de reducción de ruido y stemming. • Todos los experimentos se hicieron sobre los mensajes sin Stop Words y Stemmed
  • 14. Resultados Se corrió el algoritmo cuatro veces variando los parámetros de ganancia de información y el umbral de parada. 5 tuits seguidos aportaron menos de 2 palabras nuevas al diccionario
  • 15. Resultados Se genero un diccionario realizando un MAS de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.
  • 16. Resultados Se genero otro diccionario realizando un muestreo estratificado por temas de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población. La cantidad de tuits a tomar por estrato se calculo de la siguiente manera: 1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional 2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
  • 17. Resultados Ambos diccionarios de comportan de manera muy similar
  • 18. Resultados La tasa de cobertura es ligeramente mejor para el diccionario generado a través de un MAS
  • 19. Conclusiones • Al parecer es posible construir un diccionario con una cobertura superior al 95% con unos 240 tuits generando un diccionario de cerca de 1100 entradas. • Estratificar por temas no aporta ninguna ganancia en la construcción del diccionario.