2. Porqué twitter?
● Red social: tiempo real.
● Rica fuente de información que está madura para
hacer minería de datos.
En promedio, los usuarios de Twitter generan 140
millones de tweets por día en una variedad de
temas
3. Objetivos
● Analizar texto plano, normalizarlo y extraer lo
relevante de lo abundante.
● Realizar un estudio básico de la información
estadística aplicando algoritmos de extracción
de información, segmentación y clasificación
sobre dichos datos.
4. Paso 1: recuperar datos (tweets)
● A través de una servicio gratuito [Topsy's OtterApi]
que permite obtener los últimos tweets sobre
determinado tema:
– http://otter.topsy.com/searchdate.rss?q=juegos%20ol%C3%ADmpicos&window=d28
● Se obtiene un XML con la información de los
últimos tweets al respecto [juegos olímpicos p.e.]
en el siguiente formato:
5.
6. Paso 2:
Introducir info en un sistema de Minería de Datos
● Cuál?:
● http://rapid-i.com/content/view/181/190/
● Cómo?: en base a un lector XML o vía Xpath, que la misma
plataforma ofrece para parsear los datos.
7. Paso 3: Procesar información
● Tokenizar: Separar las palabras de los tweets una a una.
● Stopwords: Eliminar aquellas palabras no relevantes (como él, la,
los, ser, estar, etc…)
● Vectorizar los tweets: Necesitamos convertir cada tweet en un
vector de palabras [representarlo como una fila en una tabla, en el
que la primera columna será el id del texto, y tendrá otras tantas
columnas como el conjunto de palabras de todos los textos, y en el
valor de la columna, aparecerá un valor, indicando la relevancia
de dicha palabra en ese texto, con respecto a los demás].
● Todo este proceso es realizado de manera automática por la
plataforma a través de un algoritmo llamado TF/IDF..
10. Paso 5:
● Averiguar si existen grupos de palabras que se agrupen en
distintas categorías que expliquen cómo distintos grupos de
personas hablan de temas diferentes, y cuáles son esos temas.
● Cómo?: Aplicando un algoritmo de clasificación sobre los
distintos vectores de palabras, que los agrupe por similitud
[Clustering with k-medoids].. en conjunto con técnicas de
optimización de la información sobre el conjunto de datos
[Algoritmos Genéticos]..
11. Resultados del paso 5: Segmentos
De esta forma, vemos que en Twitter, se está hablando, acerca de los Juegos Olímpicos,
en 5 categorías diferentes, con temáticas diferentes. A partir de aquí, podemos sacar las
estadísticas y gráficas que queramos..
15. .. Podríamos saber, en base a un texto dado,
cuál sería su autor, o a qué categoría
pertenecería ..
16. Conclusiones
● Se ha transformado un proceso aparentemente muy
complejo de tratamiento de textos en lenguaje natural, a
un formato vectorizado que nos permite realizar
cualquier operación de análisis, comparación,
clasificación e incluso predicción.
● Este es un ejemplo simple de cómo, aplicando
algoritmos muy maduros sobre problemas complejos,
podemos dar solución a necesidades reales actuales.
17. Fuente
Aplicación de Minería de Datos a Conjuntos
de Textos. Como analizar “twitter”..
● Ibermática, Agosto 02, 2012.
http://rtdibermatica.com/?p=945