SlideShare une entreprise Scribd logo
1  sur  9
TEXT-MINING
REALIZADO POR: FERNANDA CHICA - XAVIER RIOFRIO
UNIVERSIDAD DE CUENCA
pág. 1
Contenido
Text mining.................................................................................................................................... 2
1. INTRODUCCION..................................................................................................................... 2
2. HISTORIA ............................................................................................................................... 2
3. ANALISIS DE TEXTO ............................................................................................................... 2
4. APLICACIONES ....................................................................................................................... 2
5. SOFTWARE COMERCIAL ........................................................................................................ 3
6. TEXTMINING CON WEKA....................................................................................................... 4
7. CONCLUSION......................................................................................................................... 7
8. BIBLIOGRAFIA........................................................................................................................ 7
UNIVERSIDAD DE CUENCA
pág. 2
Text mining
1. INTRODUCCION
Esta se refiere al proceso de derivar información nueva de textos. Esta es equivalente text
analytics, esta hace referencia al proceso de obtenerinformación de high-quality deltexto.
Informaciónde altacalidadse obtienenormalmente a través de los patronesy tendenciasque se
presentan a través de mediostales como el aprendizajeestadístico de patrones. La minería de
textospor lo general implicaelproceso de estructuración deltexto de entrada, derivando
patronesdentro de losdatos estructurados, y, finalmente,la evaluación y lainterpretacióndela
salida.
Las tareasde minería de textotípico incluyenla categorizaciónde texto, la agrupación
texto,concepto/extracción de entidades, la producción de taxonomíasgranulares, análisis de
los sentimientos, el documento resumen ymodelosentidad relación.
2. HISTORIA
En los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban
una cantidad de esfuerzo humano demasiado alta, pero los avances tecnológicos han
permitido que esta área progrese de manera rápida en los últimos años. Esta es un área
multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje
automático, estadísticas y la lingüística computacional. Como la mayor parte de la información
(más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de
textos tiene un gran valor comercial.
3. ANALISIS DE TEXTO
El objetivo general es, en esencia, de convertir el texto en datos para el análisis, a través de la
aplicación de procesamiento de lenguaje natural y los métodos analíticos.
Esto consiste enla recuperación de información, usar un tipo de análisis léxicopara
estudiardistribuciones de frecuenciade palabras, un reconocimiento de patrones, una
extracción de información, técnicas de mineríade datos que incluyenenlace yanálisis de
asociación, visualización y análisis predictivo.
Una aplicación típicaes escanearun conjunto dedocumentos escritos enun lenguajenatural
ycualquier modelodel conjunto de documentosa efectos de clasificaciónde predicciónorellenar
uníndice debúsqueda debase de datos ocon la informaciónextraída.
4. APLICACIONES
La tecnologíaahora se aplicaen líneas generalespara una ampliavariedad depúblico, tal cual en
este caso de la minería de texto, para lo que uno se imagine se puede aplicar, a continuación
nombraremos algún ejemplo:
UNIVERSIDAD DE CUENCA
pág. 3
Aplicaciones de seguridad.
Muchas empresas y gobiernos utilizan la minería de textos para el seguimiento yanálisis
defuentes en líneade texto sin formato, como las noticias de Internet, blogs, etc.parafines de
seguridad nacional. También está involucradoen el estudio deltexto cifrado/descifrado.
Biomédicos
Se refierea la mineríade texto aplicadoa los textosy la literaturadel dominio dela
biologíamolecularybiomedicina. Es uncampo de investigaciónbastante recienteen el borde
delprocesamiento del lenguajenatural,la bioinformática, lainformática médicay la
lingüísticacomputacional.
Hayun creciente interés enla mineríade textoylas estrategiasde extracción
deinformaciónaplicada ala literaturabiomédica ybiologíamoleculardebido a la
crecientecantidad de publicacionesdisponibles electrónicamentealmacenados enbases de
datos comoPubMed.
Aplicaciones de software
Estas están siendoinvestigadas y desarrolladaspor las principalesempresas, como IBM
yMicrosoft, para automatizar aún máslosprocesos de extraccióny análisis,y por
diferentesempresasque trabajan enel ámbito de labúsqueda yla indexaciónen general,
comouna forma de mejorarsusresultados.
Marketing
Está empezandoa utilizaren la comercializaciónymás concretamente, enanálisisde gestiónde
relaciones con clientes. Coussementy VandenPoelaplicanpara mejorar los modelosde análisis
predictivoparala pérdida de clientes
Aplicaciones académicas
El tema de la minería de textos es de importancia para publicadores que tengan grandes
bancos de datos que requieran de indexación. Esto es el caso en particular para disciplinas
científicas en las que hay una gran cantidad de información muy específica en forma de texto
escrito.
5. SOFTWARE COMERCIAL
A continuación se presentara una lista de los más conocidos:
SOFTWARE USO
AndersonAnalytics proveedordeanálisisdetextoydecontenidorelacionadoconelcomportamientodelconsumidor.
Attensity grupodesolucionesdemineríadetextosparadiversasindustrias.
Clarabridge aplicacionesdemineríadetextos,categorizaciónparaclientes,serviciosdesaludyanalíticainvestigativa.
Clearforest softwaredemineríadetextoparaextraerelsignificadodevariasformasdeinformacióntextual.
CortexIntelligence proveedordeanálisisdecontenidodeWeb.
Crossminder empresademineríadetextosconbúsquedamultilingüeyaproximaciónsemántica.
Pimiento unframeworkparaaplicacionesdemineríadetextosenJava.
PolyAnalyst softwaredemineríadetextos.
SPSS proveedordeTextSmart,SPSSTextAnalysisforSurveysyClementine,productosquesepuedenutilizarconotrosdeSPSS.
UNIVERSIDAD DE CUENCA
pág. 4
6. TEXTMINING CON WEKA
Primero para este ejemplo vamos a descargar un dataset que ya viene con weka. Este es
:ReutersGrain el cual se divide en dos partes, el de entrenamiento y el de prueba.
Primero iniciamos weka e ingresamos al Weka Explorer.
Segundo tenemos que abrir el archivo de prueba en este caso el de entrenamiento:
Este dataset contiene 1451 instancias de la clase “0” y 103 de la clase “1”, dando un total de
1554 instancias. Como se podrá observar en la primera pantalla de weka
UNIVERSIDAD DE CUENCA
pág. 5
A continuación seleccionamos “Classify” del explorer. Allí seleccionaremos el test set nuestro,
donde podremos elegir un clasificador, en este caso nosotros elegiremos el de árbol de
decisión (primero elegimos el filtro en este caso FILTEREDCLASSIFIER):
UNIVERSIDAD DE CUENCA
pág. 6
Es posible configurar de diferentes s. A su vez es posible utilizar distintos algoritmos, a
continuación mostraremos nuestra decisión:
Ahora si listo el modelo se podrá ejecutar, solo tenemos que dar clic en start y este empezara
con un proceso puede tardar varios minutos, dependiendo del tamaño del dataset y del
modelo construido.
UNIVERSIDAD DE CUENCA
pág. 7
Como es un árbol de decisión podremos visualizarlo de manera gráfica solo hay que dar en la
opción de vizualize tree y nos aparecerá los patrones algo así:
Y el resultado de manera textual se presentara de la siguiente manera:
La matriz de confusión indica la cantidad de instancias que fueron clasificadas de forma
errónea.
A B
Clasificada
como
544 3 A = "0"
19 38 B = "1"
De esta manera podemos deducir con que la exactitud del modelo, es de un 96.3576 %. Y es
que podemos concluir que el modelo es muy bueno para clasificar a A , lo contrario de B que
es pésimo. A tiene 544 correctas y tan solo 3 incorrectas en cambio B 38 correctas y la mitad
de esas incorrectas lo que es un error muy grande.
7. CONCLUSION
Al final podemos decir que el textmining se puede usar en prácticamente todo, para obtener
muchos beneficios tales como los que mencionamos en las aplicaciones que dimos de ejemplo,
si nosotros tenemos un dataset como el del ejemplo podemos obtener resultados minados de
este , el cual será el caso si necesitamos para marketing u otras necesidades.
Weka como ya sabemos es una herramienta muy poderosa y es muy útil, esta tiene mucha
documentación, es fácil de usar y no necesariamente se necesita ser un genio para manejarla,
solamente se necesita de la práctica.
8. BIBLIOGRAFIA
http://es.wikipedia.org/wiki/Miner%C3%ADa_de_textos
http://www.cs.waikato.ac.nz/ml/weka/documentation.html
http://en.wikipedia.org/wiki/Text_mining
UNIVERSIDAD DE CUENCA
pág. 8
http://www.cs.waikato.ac.nz/ml/weka/documentation.html

Contenu connexe

Similaire à Text mining

Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
Pamela Paz
 

Similaire à Text mining (20)

Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Trabajo curso.docx
Trabajo curso.docxTrabajo curso.docx
Trabajo curso.docx
 
fundamentos servicios en la nube en la actualidad
fundamentos servicios en la nube en la actualidadfundamentos servicios en la nube en la actualidad
fundamentos servicios en la nube en la actualidad
 
Indice y citas
Indice y citasIndice y citas
Indice y citas
 
trabajo monografico de las tic
trabajo monografico de las tictrabajo monografico de las tic
trabajo monografico de las tic
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Procesador de texto unach
Procesador de texto  unachProcesador de texto  unach
Procesador de texto unach
 
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
eBook Nubiral _ GenAI Services_ tierra de oportunidades para las organizacion...
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Proyecto
ProyectoProyecto
Proyecto
 
Tecnologia 11-7.docx
Tecnologia 11-7.docxTecnologia 11-7.docx
Tecnologia 11-7.docx
 
libreria sistema.docx
libreria sistema.docxlibreria sistema.docx
libreria sistema.docx
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Tesis
TesisTesis
Tesis
 
Tarea
TareaTarea
Tarea
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 

Dernier

NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docxTALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
NadiaMartnez11
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
patriciaines1993
 

Dernier (20)

NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICABIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
BIOMETANO SÍ, PERO NO ASÍ. LA NUEVA BURBUJA ENERGÉTICA
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docxTALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
TALLER DE DEMOCRACIA Y GOBIERNO ESCOLAR-COMPETENCIAS N°3.docx
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VSOCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
OCTAVO SEGUNDO PERIODO. EMPRENDIEMIENTO VS
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptxCONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
CONCURSO NACIONAL JOSE MARIA ARGUEDAS.pptx
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Biografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdfBiografía de Charles Coulomb física .pdf
Biografía de Charles Coulomb física .pdf
 
Proyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdfProyecto de aprendizaje dia de la madre MINT.pdf
Proyecto de aprendizaje dia de la madre MINT.pdf
 
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOTIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
 
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptxEL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 

Text mining

  • 1. TEXT-MINING REALIZADO POR: FERNANDA CHICA - XAVIER RIOFRIO
  • 2. UNIVERSIDAD DE CUENCA pág. 1 Contenido Text mining.................................................................................................................................... 2 1. INTRODUCCION..................................................................................................................... 2 2. HISTORIA ............................................................................................................................... 2 3. ANALISIS DE TEXTO ............................................................................................................... 2 4. APLICACIONES ....................................................................................................................... 2 5. SOFTWARE COMERCIAL ........................................................................................................ 3 6. TEXTMINING CON WEKA....................................................................................................... 4 7. CONCLUSION......................................................................................................................... 7 8. BIBLIOGRAFIA........................................................................................................................ 7
  • 3. UNIVERSIDAD DE CUENCA pág. 2 Text mining 1. INTRODUCCION Esta se refiere al proceso de derivar información nueva de textos. Esta es equivalente text analytics, esta hace referencia al proceso de obtenerinformación de high-quality deltexto. Informaciónde altacalidadse obtienenormalmente a través de los patronesy tendenciasque se presentan a través de mediostales como el aprendizajeestadístico de patrones. La minería de textospor lo general implicaelproceso de estructuración deltexto de entrada, derivando patronesdentro de losdatos estructurados, y, finalmente,la evaluación y lainterpretacióndela salida. Las tareasde minería de textotípico incluyenla categorizaciónde texto, la agrupación texto,concepto/extracción de entidades, la producción de taxonomíasgranulares, análisis de los sentimientos, el documento resumen ymodelosentidad relación. 2. HISTORIA En los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban una cantidad de esfuerzo humano demasiado alta, pero los avances tecnológicos han permitido que esta área progrese de manera rápida en los últimos años. Esta es un área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial. 3. ANALISIS DE TEXTO El objetivo general es, en esencia, de convertir el texto en datos para el análisis, a través de la aplicación de procesamiento de lenguaje natural y los métodos analíticos. Esto consiste enla recuperación de información, usar un tipo de análisis léxicopara estudiardistribuciones de frecuenciade palabras, un reconocimiento de patrones, una extracción de información, técnicas de mineríade datos que incluyenenlace yanálisis de asociación, visualización y análisis predictivo. Una aplicación típicaes escanearun conjunto dedocumentos escritos enun lenguajenatural ycualquier modelodel conjunto de documentosa efectos de clasificaciónde predicciónorellenar uníndice debúsqueda debase de datos ocon la informaciónextraída. 4. APLICACIONES La tecnologíaahora se aplicaen líneas generalespara una ampliavariedad depúblico, tal cual en este caso de la minería de texto, para lo que uno se imagine se puede aplicar, a continuación nombraremos algún ejemplo:
  • 4. UNIVERSIDAD DE CUENCA pág. 3 Aplicaciones de seguridad. Muchas empresas y gobiernos utilizan la minería de textos para el seguimiento yanálisis defuentes en líneade texto sin formato, como las noticias de Internet, blogs, etc.parafines de seguridad nacional. También está involucradoen el estudio deltexto cifrado/descifrado. Biomédicos Se refierea la mineríade texto aplicadoa los textosy la literaturadel dominio dela biologíamolecularybiomedicina. Es uncampo de investigaciónbastante recienteen el borde delprocesamiento del lenguajenatural,la bioinformática, lainformática médicay la lingüísticacomputacional. Hayun creciente interés enla mineríade textoylas estrategiasde extracción deinformaciónaplicada ala literaturabiomédica ybiologíamoleculardebido a la crecientecantidad de publicacionesdisponibles electrónicamentealmacenados enbases de datos comoPubMed. Aplicaciones de software Estas están siendoinvestigadas y desarrolladaspor las principalesempresas, como IBM yMicrosoft, para automatizar aún máslosprocesos de extraccióny análisis,y por diferentesempresasque trabajan enel ámbito de labúsqueda yla indexaciónen general, comouna forma de mejorarsusresultados. Marketing Está empezandoa utilizaren la comercializaciónymás concretamente, enanálisisde gestiónde relaciones con clientes. Coussementy VandenPoelaplicanpara mejorar los modelosde análisis predictivoparala pérdida de clientes Aplicaciones académicas El tema de la minería de textos es de importancia para publicadores que tengan grandes bancos de datos que requieran de indexación. Esto es el caso en particular para disciplinas científicas en las que hay una gran cantidad de información muy específica en forma de texto escrito. 5. SOFTWARE COMERCIAL A continuación se presentara una lista de los más conocidos: SOFTWARE USO AndersonAnalytics proveedordeanálisisdetextoydecontenidorelacionadoconelcomportamientodelconsumidor. Attensity grupodesolucionesdemineríadetextosparadiversasindustrias. Clarabridge aplicacionesdemineríadetextos,categorizaciónparaclientes,serviciosdesaludyanalíticainvestigativa. Clearforest softwaredemineríadetextoparaextraerelsignificadodevariasformasdeinformacióntextual. CortexIntelligence proveedordeanálisisdecontenidodeWeb. Crossminder empresademineríadetextosconbúsquedamultilingüeyaproximaciónsemántica. Pimiento unframeworkparaaplicacionesdemineríadetextosenJava. PolyAnalyst softwaredemineríadetextos. SPSS proveedordeTextSmart,SPSSTextAnalysisforSurveysyClementine,productosquesepuedenutilizarconotrosdeSPSS.
  • 5. UNIVERSIDAD DE CUENCA pág. 4 6. TEXTMINING CON WEKA Primero para este ejemplo vamos a descargar un dataset que ya viene con weka. Este es :ReutersGrain el cual se divide en dos partes, el de entrenamiento y el de prueba. Primero iniciamos weka e ingresamos al Weka Explorer. Segundo tenemos que abrir el archivo de prueba en este caso el de entrenamiento: Este dataset contiene 1451 instancias de la clase “0” y 103 de la clase “1”, dando un total de 1554 instancias. Como se podrá observar en la primera pantalla de weka
  • 6. UNIVERSIDAD DE CUENCA pág. 5 A continuación seleccionamos “Classify” del explorer. Allí seleccionaremos el test set nuestro, donde podremos elegir un clasificador, en este caso nosotros elegiremos el de árbol de decisión (primero elegimos el filtro en este caso FILTEREDCLASSIFIER):
  • 7. UNIVERSIDAD DE CUENCA pág. 6 Es posible configurar de diferentes s. A su vez es posible utilizar distintos algoritmos, a continuación mostraremos nuestra decisión: Ahora si listo el modelo se podrá ejecutar, solo tenemos que dar clic en start y este empezara con un proceso puede tardar varios minutos, dependiendo del tamaño del dataset y del modelo construido.
  • 8. UNIVERSIDAD DE CUENCA pág. 7 Como es un árbol de decisión podremos visualizarlo de manera gráfica solo hay que dar en la opción de vizualize tree y nos aparecerá los patrones algo así: Y el resultado de manera textual se presentara de la siguiente manera: La matriz de confusión indica la cantidad de instancias que fueron clasificadas de forma errónea. A B Clasificada como 544 3 A = "0" 19 38 B = "1" De esta manera podemos deducir con que la exactitud del modelo, es de un 96.3576 %. Y es que podemos concluir que el modelo es muy bueno para clasificar a A , lo contrario de B que es pésimo. A tiene 544 correctas y tan solo 3 incorrectas en cambio B 38 correctas y la mitad de esas incorrectas lo que es un error muy grande. 7. CONCLUSION Al final podemos decir que el textmining se puede usar en prácticamente todo, para obtener muchos beneficios tales como los que mencionamos en las aplicaciones que dimos de ejemplo, si nosotros tenemos un dataset como el del ejemplo podemos obtener resultados minados de este , el cual será el caso si necesitamos para marketing u otras necesidades. Weka como ya sabemos es una herramienta muy poderosa y es muy útil, esta tiene mucha documentación, es fácil de usar y no necesariamente se necesita ser un genio para manejarla, solamente se necesita de la práctica. 8. BIBLIOGRAFIA http://es.wikipedia.org/wiki/Miner%C3%ADa_de_textos http://www.cs.waikato.ac.nz/ml/weka/documentation.html http://en.wikipedia.org/wiki/Text_mining
  • 9. UNIVERSIDAD DE CUENCA pág. 8 http://www.cs.waikato.ac.nz/ml/weka/documentation.html