SlideShare une entreprise Scribd logo
1  sur  17
MD twitter
+
@NoxJio
Porqué twitter?
● Red social: tiempo real.
● Rica fuente de información que está madura para
hacer minería de datos.
En promedio, los usuarios de Twitter generan 140
millones de tweets por día en una variedad de
temas
Objetivos
● Analizar texto plano, normalizarlo y extraer lo
relevante de lo abundante.
● Realizar un estudio básico de la información
estadística aplicando algoritmos de extracción
de información, segmentación y clasificación
sobre dichos datos.
Paso 1: recuperar datos (tweets)
● A través de una servicio gratuito [Topsy's OtterApi]
que permite obtener los últimos tweets sobre
determinado tema:
– http://otter.topsy.com/searchdate.rss?q=juegos%20ol%C3%ADmpicos&window=d28
● Se obtiene un XML con la información de los
últimos tweets al respecto [juegos olímpicos p.e.]
en el siguiente formato:
Paso 2:
Introducir info en un sistema de Minería de Datos
● Cuál?:
● http://rapid-i.com/content/view/181/190/
● Cómo?: en base a un lector XML o vía Xpath, que la misma
plataforma ofrece para parsear los datos.
Paso 3: Procesar información
● Tokenizar: Separar las palabras de los tweets una a una.
● Stopwords: Eliminar aquellas palabras no relevantes (como él, la,
los, ser, estar, etc…)
● Vectorizar los tweets: Necesitamos convertir cada tweet en un
vector de palabras [representarlo como una fila en una tabla, en el
que la primera columna será el id del texto, y tendrá otras tantas
columnas como el conjunto de palabras de todos los textos, y en el
valor de la columna, aparecerá un valor, indicando la relevancia
de dicha palabra en ese texto, con respecto a los demás].
● Todo este proceso es realizado de manera automática por la
plataforma a través de un algoritmo llamado TF/IDF..
Paso 4:
Primer
análisis de
cuáles son
las palabras
que
aparecen
en un
conjunto de
tweets
Paso 5:
● Averiguar si existen grupos de palabras que se agrupen en
distintas categorías que expliquen cómo distintos grupos de
personas hablan de temas diferentes, y cuáles son esos temas.
● Cómo?: Aplicando un algoritmo de clasificación sobre los
distintos vectores de palabras, que los agrupe por similitud
[Clustering with k-medoids].. en conjunto con técnicas de
optimización de la información sobre el conjunto de datos
[Algoritmos Genéticos]..
Resultados del paso 5: Segmentos
De esta forma, vemos que en Twitter, se está hablando, acerca de los Juegos Olímpicos,
en 5 categorías diferentes, con temáticas diferentes. A partir de aquí, podemos sacar las
estadísticas y gráficas que queramos..
Gráfica 1: ¿de qué se habla más?
Gráfica 2: ¿quién habla de qué?
Gráfica 3: ¿cuándo se habla de qué?
.. Podríamos saber, en base a un texto dado,
cuál sería su autor, o a qué categoría
pertenecería ..
Conclusiones
● Se ha transformado un proceso aparentemente muy
complejo de tratamiento de textos en lenguaje natural, a
un formato vectorizado que nos permite realizar
cualquier operación de análisis, comparación,
clasificación e incluso predicción.
● Este es un ejemplo simple de cómo, aplicando
algoritmos muy maduros sobre problemas complejos,
podemos dar solución a necesidades reales actuales.
Fuente
Aplicación de Minería de Datos a Conjuntos
de Textos. Como analizar “twitter”..
● Ibermática, Agosto 02, 2012.
http://rtdibermatica.com/?p=945

Contenu connexe

En vedette

ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1
ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1
ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1ENJ
 
Vhi+–sida...pptx .pptx jhuigyu
 Vhi+–sida...pptx .pptx jhuigyu Vhi+–sida...pptx .pptx jhuigyu
Vhi+–sida...pptx .pptx jhuigyuestephaniag
 
Html for Beginners
Html for BeginnersHtml for Beginners
Html for BeginnersSriram Raj
 
Mortalidad Anual Atribuible Tabaco En Argentina
Mortalidad Anual Atribuible Tabaco En ArgentinaMortalidad Anual Atribuible Tabaco En Argentina
Mortalidad Anual Atribuible Tabaco En Argentinaguest88739c
 
World wideweb navegadores tercer trabajo
World wideweb navegadores tercer trabajoWorld wideweb navegadores tercer trabajo
World wideweb navegadores tercer trabajobellaniraam
 
做孩子的心理醫生
做孩子的心理醫生做孩子的心理醫生
做孩子的心理醫生Jaing Lai
 
Enseñar lengua exposición
Enseñar lengua  exposiciónEnseñar lengua  exposición
Enseñar lengua exposiciónDanielita Juarez
 
Repetición de Prueba N° 1
Repetición de Prueba N° 1Repetición de Prueba N° 1
Repetición de Prueba N° 1Paolo Castillo
 
Evaluación 4 diana y. barragán.
Evaluación 4  diana y. barragán.Evaluación 4  diana y. barragán.
Evaluación 4 diana y. barragán.Dianabarragan
 
El desarrollo de la gestion del conocimiento en red
El desarrollo de la gestion del conocimiento en redEl desarrollo de la gestion del conocimiento en red
El desarrollo de la gestion del conocimiento en redDianabarragan
 
Moni edmodo
Moni edmodoMoni edmodo
Moni edmodo1033moni
 

En vedette (20)

ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1
ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1
ENJ-300 Técnicas de Litigación ADP 1 2013 Mód 1
 
Vhi+–sida...pptx .pptx jhuigyu
 Vhi+–sida...pptx .pptx jhuigyu Vhi+–sida...pptx .pptx jhuigyu
Vhi+–sida...pptx .pptx jhuigyu
 
Revista 2
Revista 2Revista 2
Revista 2
 
Tecnologia em sala de aula
Tecnologia em sala de aulaTecnologia em sala de aula
Tecnologia em sala de aula
 
formato de video
formato de videoformato de video
formato de video
 
Universidad Europea del Atlántico: Inaugura sus instalaciones
Universidad Europea del Atlántico: Inaugura sus instalacionesUniversidad Europea del Atlántico: Inaugura sus instalaciones
Universidad Europea del Atlántico: Inaugura sus instalaciones
 
Html for Beginners
Html for BeginnersHtml for Beginners
Html for Beginners
 
La posada del silencio nº 37, curso vi
La posada del silencio nº 37, curso viLa posada del silencio nº 37, curso vi
La posada del silencio nº 37, curso vi
 
Mortalidad Anual Atribuible Tabaco En Argentina
Mortalidad Anual Atribuible Tabaco En ArgentinaMortalidad Anual Atribuible Tabaco En Argentina
Mortalidad Anual Atribuible Tabaco En Argentina
 
Servicio Alemán de Intercambio Académico (DAAD)
Servicio Alemán de Intercambio Académico  (DAAD)Servicio Alemán de Intercambio Académico  (DAAD)
Servicio Alemán de Intercambio Académico (DAAD)
 
World wideweb navegadores tercer trabajo
World wideweb navegadores tercer trabajoWorld wideweb navegadores tercer trabajo
World wideweb navegadores tercer trabajo
 
Ghadeere Khum Declaration of Prophet SUH and HP
Ghadeere Khum Declaration of Prophet SUH and HPGhadeere Khum Declaration of Prophet SUH and HP
Ghadeere Khum Declaration of Prophet SUH and HP
 
Trabajo #1
Trabajo #1Trabajo #1
Trabajo #1
 
做孩子的心理醫生
做孩子的心理醫生做孩子的心理醫生
做孩子的心理醫生
 
Enseñar lengua exposición
Enseñar lengua  exposiciónEnseñar lengua  exposición
Enseñar lengua exposición
 
Repetición de Prueba N° 1
Repetición de Prueba N° 1Repetición de Prueba N° 1
Repetición de Prueba N° 1
 
Evaluación 4 diana y. barragán.
Evaluación 4  diana y. barragán.Evaluación 4  diana y. barragán.
Evaluación 4 diana y. barragán.
 
Powerpointing115
Powerpointing115Powerpointing115
Powerpointing115
 
El desarrollo de la gestion del conocimiento en red
El desarrollo de la gestion del conocimiento en redEl desarrollo de la gestion del conocimiento en red
El desarrollo de la gestion del conocimiento en red
 
Moni edmodo
Moni edmodoMoni edmodo
Moni edmodo
 

Similaire à Minería de datos (práctica twitter)

Presentación fundación telefónica coolhunting - 13 de julio 2010 - m anuel s...
Presentación fundación telefónica  coolhunting - 13 de julio 2010 - m anuel s...Presentación fundación telefónica  coolhunting - 13 de julio 2010 - m anuel s...
Presentación fundación telefónica coolhunting - 13 de julio 2010 - m anuel s...Asociación Española de Coolhunting
 
Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...
Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...
Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...Manuel Serrano Ortega
 
Datlas - BigData con Twitter - Qué hace la gente en Monterrey
Datlas - BigData con Twitter - Qué hace la gente en MonterreyDatlas - BigData con Twitter - Qué hace la gente en Monterrey
Datlas - BigData con Twitter - Qué hace la gente en MonterreyPedro Vallejo Castillo
 
Coolhunting Empresarial para Gestores de la Cadena Agroalimentaria
Coolhunting Empresarial para Gestores de la Cadena AgroalimentariaCoolhunting Empresarial para Gestores de la Cadena Agroalimentaria
Coolhunting Empresarial para Gestores de la Cadena AgroalimentariaLourdes Rodríguez Rodríguez
 
Seminario Coolhunting Empresarial para los gestores de la cadena Agroalimentaria
Seminario Coolhunting Empresarial para los gestores de la cadena AgroalimentariaSeminario Coolhunting Empresarial para los gestores de la cadena Agroalimentaria
Seminario Coolhunting Empresarial para los gestores de la cadena AgroalimentariaAsociación Española de Coolhunting
 
Maestros del tweet - Spa Mencey
Maestros del tweet - Spa MenceyMaestros del tweet - Spa Mencey
Maestros del tweet - Spa MenceyLearn & Show
 
Curso Coolhunting: Sector Agroalimentario
Curso Coolhunting: Sector AgroalimentarioCurso Coolhunting: Sector Agroalimentario
Curso Coolhunting: Sector AgroalimentarioManuel Serrano Ortega
 
Analisis de la red social Twitter con el uso de la herramienta Tweetreach
Analisis de la red social Twitter con el uso de la herramienta TweetreachAnalisis de la red social Twitter con el uso de la herramienta Tweetreach
Analisis de la red social Twitter con el uso de la herramienta TweetreachAndres Aguilar
 
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACHANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACHAndres Aguilar
 
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3Andres Aguilar
 
Analisis de Twitter con el uso de la herramienta Tweetreach
Analisis de Twitter con el uso de la herramienta TweetreachAnalisis de Twitter con el uso de la herramienta Tweetreach
Analisis de Twitter con el uso de la herramienta TweetreachAndres Aguilar
 
Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Elsa Guevara Lopez
 
Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Elsa Guevara Lopez
 
Herramienta scoopit
Herramienta scoopitHerramienta scoopit
Herramienta scoopitreyser2017
 
Molina rus francisco jose actividad 2
Molina rus francisco jose actividad 2Molina rus francisco jose actividad 2
Molina rus francisco jose actividad 2Francisco Jose Molina
 
Plan de dinamización de redes sociales
Plan de dinamización de redes socialesPlan de dinamización de redes sociales
Plan de dinamización de redes socialesIbonE2
 

Similaire à Minería de datos (práctica twitter) (20)

Presentación fundación telefónica coolhunting - 13 de julio 2010 - m anuel s...
Presentación fundación telefónica  coolhunting - 13 de julio 2010 - m anuel s...Presentación fundación telefónica  coolhunting - 13 de julio 2010 - m anuel s...
Presentación fundación telefónica coolhunting - 13 de julio 2010 - m anuel s...
 
Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...
Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...
Coolhunting - Fundación Telefónica - Manuel Serrano Ortega - Coolhunting Comm...
 
Curs 2.7. Análisis de datos de redes sociales
Curs 2.7. Análisis de datos de redes socialesCurs 2.7. Análisis de datos de redes sociales
Curs 2.7. Análisis de datos de redes sociales
 
Datlas - BigData con Twitter - Qué hace la gente en Monterrey
Datlas - BigData con Twitter - Qué hace la gente en MonterreyDatlas - BigData con Twitter - Qué hace la gente en Monterrey
Datlas - BigData con Twitter - Qué hace la gente en Monterrey
 
Coolhunting Empresarial para Gestores de la Cadena Agroalimentaria
Coolhunting Empresarial para Gestores de la Cadena AgroalimentariaCoolhunting Empresarial para Gestores de la Cadena Agroalimentaria
Coolhunting Empresarial para Gestores de la Cadena Agroalimentaria
 
Seminario Coolhunting Empresarial para los gestores de la cadena Agroalimentaria
Seminario Coolhunting Empresarial para los gestores de la cadena AgroalimentariaSeminario Coolhunting Empresarial para los gestores de la cadena Agroalimentaria
Seminario Coolhunting Empresarial para los gestores de la cadena Agroalimentaria
 
Maestros del tweet - Spa Mencey
Maestros del tweet - Spa MenceyMaestros del tweet - Spa Mencey
Maestros del tweet - Spa Mencey
 
Curso Coolhunting: Sector Agroalimentario
Curso Coolhunting: Sector AgroalimentarioCurso Coolhunting: Sector Agroalimentario
Curso Coolhunting: Sector Agroalimentario
 
Analisis de la red social Twitter con el uso de la herramienta Tweetreach
Analisis de la red social Twitter con el uso de la herramienta TweetreachAnalisis de la red social Twitter con el uso de la herramienta Tweetreach
Analisis de la red social Twitter con el uso de la herramienta Tweetreach
 
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACHANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH
 
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3
ANÁLISIS DE LA RED SOCIAL TWITTER CON EL USO DE LA HERRAMIENTA TWETTREACH3
 
Analisis de Twitter con el uso de la herramienta Tweetreach
Analisis de Twitter con el uso de la herramienta TweetreachAnalisis de Twitter con el uso de la herramienta Tweetreach
Analisis de Twitter con el uso de la herramienta Tweetreach
 
Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)
 
Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)Búsqueda de infromación en internet (gestion del conocimiento)
Búsqueda de infromación en internet (gestion del conocimiento)
 
Herramientas marketing digital = Twitter
Herramientas marketing digital = TwitterHerramientas marketing digital = Twitter
Herramientas marketing digital = Twitter
 
Sistema de reputación online
Sistema de reputación onlineSistema de reputación online
Sistema de reputación online
 
Herramienta scoopit
Herramienta scoopitHerramienta scoopit
Herramienta scoopit
 
Molina rus francisco jose actividad 2
Molina rus francisco jose actividad 2Molina rus francisco jose actividad 2
Molina rus francisco jose actividad 2
 
Ii curso oficial de coolhunting marzo 11
Ii curso oficial de coolhunting   marzo 11Ii curso oficial de coolhunting   marzo 11
Ii curso oficial de coolhunting marzo 11
 
Plan de dinamización de redes sociales
Plan de dinamización de redes socialesPlan de dinamización de redes sociales
Plan de dinamización de redes sociales
 

Minería de datos (práctica twitter)

  • 2. Porqué twitter? ● Red social: tiempo real. ● Rica fuente de información que está madura para hacer minería de datos. En promedio, los usuarios de Twitter generan 140 millones de tweets por día en una variedad de temas
  • 3. Objetivos ● Analizar texto plano, normalizarlo y extraer lo relevante de lo abundante. ● Realizar un estudio básico de la información estadística aplicando algoritmos de extracción de información, segmentación y clasificación sobre dichos datos.
  • 4. Paso 1: recuperar datos (tweets) ● A través de una servicio gratuito [Topsy's OtterApi] que permite obtener los últimos tweets sobre determinado tema: – http://otter.topsy.com/searchdate.rss?q=juegos%20ol%C3%ADmpicos&window=d28 ● Se obtiene un XML con la información de los últimos tweets al respecto [juegos olímpicos p.e.] en el siguiente formato:
  • 5.
  • 6. Paso 2: Introducir info en un sistema de Minería de Datos ● Cuál?: ● http://rapid-i.com/content/view/181/190/ ● Cómo?: en base a un lector XML o vía Xpath, que la misma plataforma ofrece para parsear los datos.
  • 7. Paso 3: Procesar información ● Tokenizar: Separar las palabras de los tweets una a una. ● Stopwords: Eliminar aquellas palabras no relevantes (como él, la, los, ser, estar, etc…) ● Vectorizar los tweets: Necesitamos convertir cada tweet en un vector de palabras [representarlo como una fila en una tabla, en el que la primera columna será el id del texto, y tendrá otras tantas columnas como el conjunto de palabras de todos los textos, y en el valor de la columna, aparecerá un valor, indicando la relevancia de dicha palabra en ese texto, con respecto a los demás]. ● Todo este proceso es realizado de manera automática por la plataforma a través de un algoritmo llamado TF/IDF..
  • 8.
  • 9. Paso 4: Primer análisis de cuáles son las palabras que aparecen en un conjunto de tweets
  • 10. Paso 5: ● Averiguar si existen grupos de palabras que se agrupen en distintas categorías que expliquen cómo distintos grupos de personas hablan de temas diferentes, y cuáles son esos temas. ● Cómo?: Aplicando un algoritmo de clasificación sobre los distintos vectores de palabras, que los agrupe por similitud [Clustering with k-medoids].. en conjunto con técnicas de optimización de la información sobre el conjunto de datos [Algoritmos Genéticos]..
  • 11. Resultados del paso 5: Segmentos De esta forma, vemos que en Twitter, se está hablando, acerca de los Juegos Olímpicos, en 5 categorías diferentes, con temáticas diferentes. A partir de aquí, podemos sacar las estadísticas y gráficas que queramos..
  • 12. Gráfica 1: ¿de qué se habla más?
  • 13. Gráfica 2: ¿quién habla de qué?
  • 14. Gráfica 3: ¿cuándo se habla de qué?
  • 15. .. Podríamos saber, en base a un texto dado, cuál sería su autor, o a qué categoría pertenecería ..
  • 16. Conclusiones ● Se ha transformado un proceso aparentemente muy complejo de tratamiento de textos en lenguaje natural, a un formato vectorizado que nos permite realizar cualquier operación de análisis, comparación, clasificación e incluso predicción. ● Este es un ejemplo simple de cómo, aplicando algoritmos muy maduros sobre problemas complejos, podemos dar solución a necesidades reales actuales.
  • 17. Fuente Aplicación de Minería de Datos a Conjuntos de Textos. Como analizar “twitter”.. ● Ibermática, Agosto 02, 2012. http://rtdibermatica.com/?p=945