Datlas - BigData con Twitter - Qué hace la gente en Monterrey
1. ¿Qué hace la gente en Monterrey?
Foro: Data Science & Python MTY Join Meetup
Análisis de Datos de Twitter y Foursquare
Impartida por:
2. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
3. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
5. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
6. Objetivos de la sesión:
¿Qué hace la gente en Monterrey?
Queremos entender la dinámica
recreativa por medio de check-ins:
• ¿A qué lugares salen?
• ¿En qué horarios y qué días de la
semana salen?
• ¿Cuáles son sus lugares
favoritos?
• ¿Qué plaza comercial es la más
visitada?
• ¿Cuál es su cine favorito?
• Entre otros….
7. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
8. Datos que hablan…
• Utilizamos los registros de & compartidos en
• ¿Cómo haces check-in?
• ¿Por qué hacer check-in? → Recomendaciones, calificas los lugares y
puedes ver donde están tus amigos.
10. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
11. Metodología
• Método: Analizamos información de check-ins compartida en Twitter
por usuarios de Nuevo León
• ¿Cómo? Utilizamos en Python la librería de “tweepy” que permite
autentificarte y extraer los tweets de una manera relativamente
sencilla
• Para el Análisis: Usamos tweets con check-ins geo referenciados en la
zona metropolitana de Monterrey
• Para Visualizar: Usamos Google Fusion Tables por su facilidad para
manejar grandes cantidades de datos en la nube, usar Google Maps
para hacer mapeo de puntos, además de ser muy intuitivo.
12. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
14. Primeros pasos: Registrarse para API
Twitter
• Registrarse como Developer en el sitio de Twitter
• Con eso te dan una clave para usar su API y descargar Tweets
• Limitante: Sólo se pueden bajar los últimos 100 tweets por
llamada.
• Tip: Hacer un ciclo con un máximo de 450 llamadas cada 15
minutos.
15. ¿Cómo es la estructura del Tweet? Pt.1
• La llamada a la API de twitter te regresa un JSON que se ve así…
16. ¿Cómo es la estructura del Tweet? Pt.2
• La llamada a la API de twitter te regresa un JSON que se ve así…
18. Pasos a Seguir: → Variables
• Hacemos una extracción y filtrado de las variables que nos interesan
• Ajustamos la zona horaria a la correspondiente a México
• Filtramos por location (eliminamos los tweets que no estén
georeferenciados)
• Quitamos caracteres, signos, links o fotos para una mejor lectura del
tweet
• Extraemos y damos formato a la fecha
• Limpiamos los nombres de los usuarios
19. Pasos a Seguir: Variables → Diccionario
• Se hace un “diccionario” en Python que contiene las variables de
interés del tweet
• Se renombran las variables
20. Pasos a Seguir: Diccionario →
• Se utiliza la librería pandas para manipular datos y conservar el
rango de fechas de nuestro interés. (de Lunes anterior al Domingo)
21. • Se utiliza la librería pandas para manipular datos y conservar el
rango de fechas de nuestro interés. (de Lunes anterior al Domingo)
• Se realiza la conversión a CSV, facilitado por la misma librería.
Pasos a Seguir: →
22. Pasos a Seguir: → Spreadsheet
• Hacemos una validación visual de que las columnas estén en orden.
23. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
24. Pasos a Seguir: Spreadsheet → Visualización
• Creamos una Fusion Table seleccionando nuestro archivo CSV.
(En nuestro caso cargamos un nuevo archivo cada semana)
http://fusiontables.google.com
25. Pasos a Seguir: Spreadsheet → Visualización
• Fusion Tables detecta las columnas lat y long como geo referencia
para proponernos un mapa por default con la información
• Tomando esta referencia podemos tener un mapa como este…
30. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
33. Analizando por Mapas de Calor las
zonas más “calientes” en fin de semana
Aeropuerto Internac.
Parque Fundidora
Paseo La Fe
Esfera City Center
Nuevo Sur
Galerías Monterrey
Centrito Valle
Plaza Fiesta San Ag.
Galerías Valle Oriente
Tec de Monterrey
Barrio Antiguo
34. ¿Qué días hubo más actividad?
• Los días con más actividad son los días después de la
quincena y los fines de semana. Tiene lógica, ¿no?
35. ¿A qué horas incrementa la actividad?
• A partir de las 6 de la tarde hay un incremento en las visitas a
parques, estadios, restaurantes y al cine.
36. Resumen de Hallazgos
• ¿Qué actividades ocasionaron más tráfico?
• Más de 6,000 lugares que registraron check-ins,
encontramos como principales motivadores:
eventos deportivos y estrenos de cine
• En los 3 sábados de Julio:
• Partidos de fútbol 45-52% de los check-ins
• Peliculas de estreno
38. Y todo esto ¿Para qué?
• ¿Dónde pongo mi negocio o dónde me expando?
• ¿En qué zonas me puedo anunciar dado que hay más
tráfico de personas en fin de semana?
• ¿En qué lugares los clientes son más exigentes con
sus comentarios?
Este tipo de análisis es útil para comercios que quieren posicionarse con sus
consumidores, entender la dinámica diaria de su mercado meta, y responder
preguntas como:
39. Agenda
1. Acerca de Nosotros
2. Objetivos de la sesión
3. Datos de Foursquare & Twitter ¿Cómo funcionan?
4. Análisis de Datos
1. Metodología
2. Extracción y procesamiento: Twitter → Python
3. Visualización: Python → Google Fusion Tables
5. Potencial de Uso – Caso de Monterrey
6. ¿Qué hacemos en Datlas?
41. Invitación a DEMO y Taller en INCMTY
Suscríbanse para un DEMO y
si nos dan retro les mandaremos
Un archivo con una semana de tweets:
http://www.thedatlas.com/
Daremos un taller en INCMTY 2016
Título: “Datlas: tengo una idea ¿Dónde la pongo?”