SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
1

Text Mining

#Huamaní Díaz, Lina
#Silva Mestanza, Abraham
Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
Introducción

2

La mayoría de tuiteros es
menor a 25 años.

Actualmente se tiene 1.5
Evolución de los usuarios peruanos
demillones de de usuarios)
Twitter (Miles cuentas
1529

750
309
87
2009

2010

2011

2012

> 45 Años 2%

Miles de usuarios

1292

2013

36-45 Años

6%

35%

25-35 Años

< 25 Años

60%

El mayor porcentaje de
Tuiteros son hombres

45%

55%

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
¿Qué es Text Mining?

El text mining es el análisis de
información no estructurada, la cual se
puede encontrar en redes sociales.
La minería de datos no estructurados
o text mining, usará modelamiento
estadístico y técnicas de aprendizaje
para convertir este lenguaje
en
información de interés para el usuario.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like

3
Redes Sociales

4

Linkedin

Facebook

Google +

Twitter

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
¿Qué es Twitter?

5

Twitter es una plataforma social de Como plataforma social cada usuario la
las más usadas en la actualidad y en usará con un objetivo, chatear, ver lo que
crecimiento en número de usuarios. dicen o hacen otras personas, etc.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
¿Que tan valioso es twitter para los estadísticos?
•
•
•
•
•

¿Es una gran fuente de datos a explotar?
¿Qué se hace con esta información?
¿Es aplicable la estadística a este tipo de datos?
¿Se pueden usar todas las técnicas estadísticas
con estos datos?
¿La data es libre?

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like

6
7

Aplicación:

Segmentación de Usuarios de Twitter en Lima
Metropolitana de acuerdo a la naturaleza de
sus publicaciones.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
OBJETIVOS

8

Objetivo general:
 Determinar los diferentes segmentos que agrupan a los usuarios de
«Twitter» en Lima Metropolitana de acuerdo al tema de sus
publicaciones.
Objetivos específicos:
 Identificar al segmento que contiene la mayor parte de los usuarios de
«Twitter» en Lima metropolitana según el tema de publicación.
 Establecer cuáles son los distritos de Lima Metropolitana con mayor
actividad tuitera.
 Conocer que segmentos son los más relevantes dentro de los distritos
de Lima metropolitana con mayor actividad tuitera.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
HIPÓTESIS

9

Hipótesis general:
 Existen diferentes segmentos o grupos que contienen a los usuarios de
«Twitter» en Lima Metropolitana, de acuerdo al tema de sus
publicaciones.
Hipótesis específicas:
 El segmento que contiene a la mayor proporción de usuarios de
«Twitter» en Lima Metropolitana, según el tema de sus publicaciones,
es el referido a los sentimientos tales como el amor («Análisis
sentimental»).
 Los distritos con mayor actividad tuitera en Lima Metropolitana son
Miraflores, San Borja y Lince.
 Los segmentos más relevantes en los distritos con mayor actividad
tuitera de Lima Metropolitana son los referidos a temas sociales, tales
como el amor, la música y los deportes.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
DISEÑO MUESTRAL
Tipo de Investigación: Cuantitativa concluyente
Universo: Usuarios de twiter de los 43 distritos de Lima Metropolitana (No incluye la
provincia constitucional del Callao)
Marco Muestral: Usuarios registrados dentro de Lima Metropolitana
Método de muestreo: Selección aleatoria simple.
Tipo de Población: Población infinita (1.5 millones de usuarios de Twiter de Lima

Metropolitana
Nivel de confianza: 95%
Margen de Error: 2.5%
Tamaño de muestra: 1500 usuarios
Periodo de Análisis: Del 04 de Junio al 04 de Julio

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like

10
ANÁLISIS DESCRIPTIVO

11

Twiteros por Distrito
San Borja
Cercado de Lima
Magdalena del Mar
La Molina
San Miguel
Los Olivos
Jesús María
Rimac
Surquillo

San Juan de Lurigancho
Comas
Ate
San Juan de Miraflores

Carabayllo
Cieneguilla
Santa María del Mar
Independencia
Punta Hermosa
Puente Piedra
Pachacamac
Lurigancho
Ancón

Company Proprietary and Confidential
This

2%
2%
1%
1%
1%
1%
1%
1%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%

4%
3%

Copyright Info Goes Here Just Like

5%

7%

9%
9%

13%
13%
12%

15%
Creación de las Variables

12

Variables
Política
Economía
Celulares
Computadora

Palabras mencionadas relacionadas
ollanta,nadine,congreso,alan garcia,alejandro toledo,ministro,politica
bolsa,tlc,dinero,banco,mercado,inversion,economía,exportación,importación,pymes
ipad,iphone,S4,wifi,smartphone,G3,galaxy,celular
computadora,tablet,laptop,toshiba,sony,touch,vaio,hp

Deporte

futbol,deporte,voley,markarian,gol,manuel burga,claudio pizarro,paolo guerrero,
estadio,jefferson farfan,universitario,arbitro,clásico,estadio,alianza lima,hinchas,selección de futbol,mundial brasil

Musica
Teatro
Cine

cantante,canción,disco,video clic,discoteca,compositor,fiesta,musica,concierto,giras,ritmo,radio
teatro,libreto,personajes,taquilla,obras,actor,elenco,actriz,comedia,drama
trailer,cartelera,estreno,asu mare,cinescape

Juegos
Salud

gamers,starcraft,play2,pla3,video juegos,juegos online,dota,playstation,ps3,ps2,psvita,xbox,wii,3d,god of war,psp
salud,medicina,pastilla,vacunas,virus,gripe,epidemias,cancer,
naturista,hospital,paciente,essalud,clínica,médico,doctor,enfermera

Sentimiento
Turismo

amor,cariño,flechazo,corazón,amistad,enamorado,novio,matrimonio,boda,cupido,divorcio,love,amante
machupichu,guia,feriado,turismo,viaje,vuelo,hotel,tour,viaje

Farándula

chollywood,esto es guerra,combate,enemigos publicos,rating,la noche es mia,magaly medina,gran
show,telenovelas
gastón acurio,sopa,postres,reposteria,restaurante,mixtura,cebiche,pollo a la brasa,dieta
Otras palabras encontradas

Gastronomía
Otros

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
Temas de publicación

13

10.2%

Celulares
9.7%

Computadoras
9.1%

juegos
8.0%

sentimientos
7.5%

cine

7.2%

Turismo
6.6%

Musica
Economía

6.2%

gastronomía

6.2%

teatro

6.1%

Farandula

6.1%
5.1%

Política
4.4%

Otros
Deporte

3.9%

Salud

3.8%

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
SEGMENTACIÓN

14

c

1

2

Nombre

Gamers

Tecnológicos

Descripción

Gente cuyas preferencias están
ligados específicamente a todo lo
que tiene que ver con juegos de
video, sus comentarios ván desde
los últimos juegos hasta las
críticas a las consolas de juego
tales como el PS2 o el PS3.

Personas cuya afición es todo lo
relacionado a la tecnología, cuya
tendencia es más fuerte cada día,
así en este segmento
encontraremos a los amantes de
los celulares y computadortas de
moda

361
24.1%
96.1%
4.4%
8.0%
37.4%
19.4%
12.2%
3.6%
7.8%
15.0%
13.9%
16.3%
14.7%
8.6%
14.7%
8.6%

317
21.1%
41.0%
5.0%
99.1%
9.8%
12.9%
96.5%
9.1%
21.5%
22.0%
29.3%
8.5%
19.2%
41.0%
30.6%
37.5%

Absolutos
%
Juegos
Sentimientos
Computadoras
Otros
Economía
Menciones Celulares
en cada una Política
de las
Turismo
variables Salud
del estudio Teatro
gastronomía
Cine
Música
Farándula
Deporte
Tamaño

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
SEGMENTACIÓN

15

c

3

Nombre

Románticos

Ejecutivos
Los ejecutivos son los que
Los Románticos está conformado
comentan todo respecto a lo que
por aquellas personas las cuales
es política y economía ya que está
suelen escribir palabras de amor,
relacionado con lo que los
ya sean poemas o frase, también
apasiona, es decir su trabajo, así
y en menor intensidad comentan
mismo se ve que opinan sobre
sobre la farándula local y les gusta
salud aspecto que en otros
seguir todo lo respecto a la
estudias se ha visto es importante
música
dentro de los ejecutivos jóvenes

Descripción

Absolutos
%
Tamaño
Juegos
Sentimientos
Computadoras
Otros
Economía
Menciones Celulares
en cada una Política
de las
Turismo
variables Salud
del estudio Teatro
gastronomía
Cine
Música
Farándula
Deporte
Company Proprietary and Confidential
This

4

Copyright Info Goes Here Just Like

283
18.9%
3.2%
98.9%
22.3%
14.5%
8.1%
9.2%
10.2%
29.3%
6.4%
18.0%
30.4%
36.4%
50.9%
52.3%
20.8%

199
13.3%
6.0%
32.2%
12.6%
11.6%
84.4%
43.2%
80.9%
29.6%
66.8%
25.6%
27.1%
24.6%
19.1%
23.1%
5.5%
SEGMENTACIÓN

16

c

5

6

Nombre

Relajados

Diversos

Son personas cuyas principal afición
son los viajes o todo lo relacionado
al turismo, por ello sus princiaples
twits es respecto a lugares turísticos,
recomendaciones de hospedaje, etc

En este segmento se encuentran
todos los twiteros que opinan
respecto a los otros temas que
resultaron en minoría en el análisis
como por ejemplo, el clima, el
medio ambiente, etc.

Descripción

Absolutos
%
Tamaño
Juegos
Sentimientos
Computadoras
Otros
Economía
Menciones Celulares
en cada una Política
de las
Turismo
variables Salud
del estudio Teatro
gastronomía
Cine
Música
Farándula
Deporte
Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like

194
12.9%
24.2%
22.2%
12.4%
11.3%
56.7%
32.0%
6.7%
93.8%
13.9%
20.1%
21.6%
14.4%
10.3%
11.3%
4.1%

146
9.7%
15.1%
0.0%
9.6%
95.2%
11.6%
13.0%
10.3%
8.2%
5.5%
2.1%
8.9%
24.7%
13.7%
8.9%
8.2%
Tamaño de los segmentos encontrados

Ejecutivos Relajados
13%
13%

Románticos
19%

Tecnológicos
21%

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like

Diversos
10%

Gamers
24%

17
SEGMENTOS POR DISTRITO

18

En el siguiente cuadro observamos cómo están distribuidos los segmentos con
respecto al distrito de los usuarios de Twiter. De dónde observamos que los distritos
con mayor actividad twitera son los distritos de: San Borja, Miraflores, Cercado de
Lima, San Isidro, Magdalena del Mar y Lince.
Código
41
18
1
27
17
14
12
33
32
30
39
13
11

Distrito
San Borja
Miraflores
Cercado de Lima
San Isidro
Magdalena del Mar
Lince
La Molina
Santiago de Surco
San Miguel
San Luis
Los Olivos
La Victoria
Jesús María

Company Proprietary and Confidential
This

Ejecutivos
10.8%
14.9%
13.6%
13.5%
11.2%
15.2%
11.0%
15.3%
7.1%
22.9%
6.7%
12.0%
26.3%

Copyright Info Goes Here Just Like

Gamers
36.2%
10.4%
24.6%
23.6%
26.1%
20.5%
22.0%
26.4%
25.0%
16.7%
23.3%
36.0%
21.1%

Otros Relajados Románticos Tecnológicos Total general
9.1%
5.6%
16.4%
22.0%
15%
7.0%
23.9%
21.9%
21.9%
13%
11.0% 11.0%
17.8%
22.0%
13%
11.8% 14.0%
16.9%
20.2%
12%
14.2% 14.9%
16.4%
17.2%
9%
13.6%
9.1%
17.4%
24.2%
9%
6.0%
12.0%
28.0%
21.0%
7%
8.3%
8.3%
19.4%
22.2%
5%
12.5% 16.1%
19.6%
19.6%
4%
8.3%
12.5%
27.1%
12.5%
3%
10.0% 10.0%
16.7%
33.3%
2%
4.0%
16.0%
16.0%
16.0%
2%
10.5% 10.5%
10.5%
21.1%
1%
CONCLUSIONES

19

 Los segmentos encontrados son: Gamers, Tecnológicos, Románticos,
Ejecutivos, Relajados y otros.
 El segmento con mayor volumen es el de los Gamers y Los Tecnológicos.
 Los distritos con mayor actividad twitera son : San Borja, Miraflores,
Cercado de Lima, San Isidro, Magdalena del Mar y Lince. Que
corresponde al 70% de la población Twitera de Lima Metropolitana.
 En el distrito de Miraflores los Twiteros tienen mayor preponderancia en
los segmentos Relajados y Romanticos, mientras que en el resto de
distritos no hay algun segmento que resalte.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
OPORTUNIDADES

20

 Otro enfoque con el cual se puede trabajar este tipo de segmentaciones es
desde el punto de vista frecuentista, es decir tomando en cuenta la
cantidad de publicaciones que hacen sobre un tema, esto permitiría ya no
sólo trabajar con una segmentación de dos fases si n también con las
segmentaciones clásicas como la jerárquica o la de k medias.
 Este tipo de segmentaciones se deberían hacer en forma periódica ya que
está influenciado por los temas que comenta la gente, por ende si hay
alguna noticia de impacto puede provocar ciertos sesgos al momento de
determinar los segmentos dentro de la población.
 Sería aconsejable ampliar el periodo de análisis como por ejemplo de 1
año, de tal forma de evitar los temas coyunturales que dificultan una
óptima segmentación.
 La segmentación se podría ver enriquecida aumentando al análisis
variables demográficas como por ejemplo género, edad, nivel
socioeconómico, etc.

Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like
21

GRACIAS!!!
Company Proprietary and Confidential
This

Copyright Info Goes Here Just Like

Contenu connexe

En vedette

Data mining
Data miningData mining
Data mining
mayimez
 
¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?
DMC Perú
 
Data Mining
Data MiningData Mining
Data Mining
brobelo
 
Dell social media analysis jun jul copia
Dell social media analysis jun   jul copiaDell social media analysis jun   jul copia
Dell social media analysis jun jul copia
Daniel Plascencia
 
Twiter trabajo
Twiter trabajoTwiter trabajo
Twiter trabajo
Chambee
 

En vedette (20)

Data mining
Data miningData mining
Data mining
 
Text mining
Text miningText mining
Text mining
 
¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?
 
Text mining
Text miningText mining
Text mining
 
minería de textos
minería de textosminería de textos
minería de textos
 
J15 45 peset_fernanda
J15 45 peset_fernandaJ15 45 peset_fernanda
J15 45 peset_fernanda
 
Presentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15MPresentación Guadalajara #Tecnopoliticay15M
Presentación Guadalajara #Tecnopoliticay15M
 
Text Mining
Text MiningText Mining
Text Mining
 
4.4 text mining
4.4 text mining4.4 text mining
4.4 text mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Big Data & Text Mining
Big Data & Text MiningBig Data & Text Mining
Big Data & Text Mining
 
Minería de textos sacar más partido de las preguntas abiertas
Minería de textos   sacar más partido de las preguntas abiertasMinería de textos   sacar más partido de las preguntas abiertas
Minería de textos sacar más partido de las preguntas abiertas
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de texto
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco ParísCurso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
 
Dell social media analysis jun jul copia
Dell social media analysis jun   jul copiaDell social media analysis jun   jul copia
Dell social media analysis jun jul copia
 
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Seguimiento twitter de las elecciones generales 2015 de Andorra la VellaSeguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
 
Twiter trabajo
Twiter trabajoTwiter trabajo
Twiter trabajo
 
Metodologia para el analisis de redes sociales
Metodologia para el analisis de redes socialesMetodologia para el analisis de redes sociales
Metodologia para el analisis de redes sociales
 

Similaire à Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.

Marketing Digital y Social Media 2014
Marketing Digital y Social Media 2014Marketing Digital y Social Media 2014
Marketing Digital y Social Media 2014
Brenda Treviño
 

Similaire à Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana. (20)

Estudio redes sociales en el salvador 2018
Estudio redes sociales en el salvador 2018Estudio redes sociales en el salvador 2018
Estudio redes sociales en el salvador 2018
 
Estudio redes sociales en el salvador 2018
Estudio redes sociales en el salvador 2018Estudio redes sociales en el salvador 2018
Estudio redes sociales en el salvador 2018
 
Segmentacion por Comunidades Twitter Peru - Quantico
Segmentacion por Comunidades Twitter Peru - QuanticoSegmentacion por Comunidades Twitter Peru - Quantico
Segmentacion por Comunidades Twitter Peru - Quantico
 
Qué es el Community Management.
Qué es el Community Management.Qué es el Community Management.
Qué es el Community Management.
 
Twitter Research
Twitter ResearchTwitter Research
Twitter Research
 
Anton Chalbaud - We Media Buenos Aires 2008
Anton Chalbaud - We Media Buenos Aires 2008Anton Chalbaud - We Media Buenos Aires 2008
Anton Chalbaud - We Media Buenos Aires 2008
 
Qué es el Community Management.
Qué es el Community Management.Qué es el Community Management.
Qué es el Community Management.
 
Marketing Digital y Social Media 2014
Marketing Digital y Social Media 2014Marketing Digital y Social Media 2014
Marketing Digital y Social Media 2014
 
¿Hay alguien ahí? Social Listening en el mundo financiero.
¿Hay alguien ahí? Social Listening en el mundo financiero.¿Hay alguien ahí? Social Listening en el mundo financiero.
¿Hay alguien ahí? Social Listening en el mundo financiero.
 
Perfil del Usuario Mexicano en Twitter
Perfil del Usuario Mexicano en TwitterPerfil del Usuario Mexicano en Twitter
Perfil del Usuario Mexicano en Twitter
 
Estudio marketing-digital-y-socialmedia-amipci
Estudio marketing-digital-y-socialmedia-amipciEstudio marketing-digital-y-socialmedia-amipci
Estudio marketing-digital-y-socialmedia-amipci
 
Estudio mkt2014 publico
Estudio mkt2014 publicoEstudio mkt2014 publico
Estudio mkt2014 publico
 
Presentación Arturo López Valerio | Tabuga - eCommerce Day República Dominica...
Presentación Arturo López Valerio | Tabuga - eCommerce Day República Dominica...Presentación Arturo López Valerio | Tabuga - eCommerce Day República Dominica...
Presentación Arturo López Valerio | Tabuga - eCommerce Day República Dominica...
 
Salud 2.0
Salud 2.0Salud 2.0
Salud 2.0
 
Mapa de poder en la Red Ecuador 2013
Mapa de poder en la Red Ecuador 2013Mapa de poder en la Red Ecuador 2013
Mapa de poder en la Red Ecuador 2013
 
Politica 2 0
Politica 2 0Politica 2 0
Politica 2 0
 
Peruanos en Twitter
Peruanos en TwitterPeruanos en Twitter
Peruanos en Twitter
 
IAB Argentina FOX Social media Marketing
IAB Argentina FOX Social media MarketingIAB Argentina FOX Social media Marketing
IAB Argentina FOX Social media Marketing
 
Gestión de la comunicación en redes sociales
Gestión de la comunicación en redes socialesGestión de la comunicación en redes sociales
Gestión de la comunicación en redes sociales
 
Presentación del webinar para el monitoreo de tu marca durante el Mundial
Presentación del webinar para el monitoreo de tu marca durante el MundialPresentación del webinar para el monitoreo de tu marca durante el Mundial
Presentación del webinar para el monitoreo de tu marca durante el Mundial
 

Plus de DMC Perú

Caso netflix
Caso netflixCaso netflix
Caso netflix
DMC Perú
 

Plus de DMC Perú (20)

DMC Talk - Blockchain Stamping
DMC Talk - Blockchain StampingDMC Talk - Blockchain Stamping
DMC Talk - Blockchain Stamping
 
DMC Talk - Presentacion Voicebots
DMC Talk - Presentacion VoicebotsDMC Talk - Presentacion Voicebots
DMC Talk - Presentacion Voicebots
 
Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú Perfiles profesionales en analytics - DMC Perú
Perfiles profesionales en analytics - DMC Perú
 
Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018Sistema recomendador - DMC 2018
Sistema recomendador - DMC 2018
 
Democratización de ciencia de datos
Democratización de ciencia de datosDemocratización de ciencia de datos
Democratización de ciencia de datos
 
Big data y Marketing digital
Big data y Marketing digitalBig data y Marketing digital
Big data y Marketing digital
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Soluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SASSoluciones de Big Data en el Entorno Analítico de SAS
Soluciones de Big Data en el Entorno Analítico de SAS
 
Big Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos PredictivosBig Data Analytics: Automatización de Modelos Predictivos
Big Data Analytics: Automatización de Modelos Predictivos
 
Evolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigDataEvolución de Herramientas de BI hacia el Entorno BigData
Evolución de Herramientas de BI hacia el Entorno BigData
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
La Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de InnovaciónLa Modelización Predictiva como Herramienta de Innovación
La Modelización Predictiva como Herramienta de Innovación
 
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
Nuevos Enfoques del Business Analytics: "Faster Prediction, Better Decision"
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big Data
 
Del Business Intelligence al Big Data
Del Business Intelligence al Big DataDel Business Intelligence al Big Data
Del Business Intelligence al Big Data
 
BigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y HadoopBigDataSummitPeru - Big Data y Hadoop
BigDataSummitPeru - Big Data y Hadoop
 
Caso netflix
Caso netflixCaso netflix
Caso netflix
 
Web Mining
Web MiningWeb Mining
Web Mining
 
Tendencias Recientes en Data Mining
Tendencias Recientes en Data MiningTendencias Recientes en Data Mining
Tendencias Recientes en Data Mining
 

Dernier

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 

Dernier (11)

Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 

Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.

  • 1. 1 Text Mining #Huamaní Díaz, Lina #Silva Mestanza, Abraham Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 2. Introducción 2 La mayoría de tuiteros es menor a 25 años. Actualmente se tiene 1.5 Evolución de los usuarios peruanos demillones de de usuarios) Twitter (Miles cuentas 1529 750 309 87 2009 2010 2011 2012 > 45 Años 2% Miles de usuarios 1292 2013 36-45 Años 6% 35% 25-35 Años < 25 Años 60% El mayor porcentaje de Tuiteros son hombres 45% 55% Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 3. ¿Qué es Text Mining? El text mining es el análisis de información no estructurada, la cual se puede encontrar en redes sociales. La minería de datos no estructurados o text mining, usará modelamiento estadístico y técnicas de aprendizaje para convertir este lenguaje en información de interés para el usuario. Company Proprietary and Confidential This Copyright Info Goes Here Just Like 3
  • 4. Redes Sociales 4 Linkedin Facebook Google + Twitter Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 5. ¿Qué es Twitter? 5 Twitter es una plataforma social de Como plataforma social cada usuario la las más usadas en la actualidad y en usará con un objetivo, chatear, ver lo que crecimiento en número de usuarios. dicen o hacen otras personas, etc. Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 6. ¿Que tan valioso es twitter para los estadísticos? • • • • • ¿Es una gran fuente de datos a explotar? ¿Qué se hace con esta información? ¿Es aplicable la estadística a este tipo de datos? ¿Se pueden usar todas las técnicas estadísticas con estos datos? ¿La data es libre? Company Proprietary and Confidential This Copyright Info Goes Here Just Like 6
  • 7. 7 Aplicación: Segmentación de Usuarios de Twitter en Lima Metropolitana de acuerdo a la naturaleza de sus publicaciones. Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 8. OBJETIVOS 8 Objetivo general:  Determinar los diferentes segmentos que agrupan a los usuarios de «Twitter» en Lima Metropolitana de acuerdo al tema de sus publicaciones. Objetivos específicos:  Identificar al segmento que contiene la mayor parte de los usuarios de «Twitter» en Lima metropolitana según el tema de publicación.  Establecer cuáles son los distritos de Lima Metropolitana con mayor actividad tuitera.  Conocer que segmentos son los más relevantes dentro de los distritos de Lima metropolitana con mayor actividad tuitera. Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 9. HIPÓTESIS 9 Hipótesis general:  Existen diferentes segmentos o grupos que contienen a los usuarios de «Twitter» en Lima Metropolitana, de acuerdo al tema de sus publicaciones. Hipótesis específicas:  El segmento que contiene a la mayor proporción de usuarios de «Twitter» en Lima Metropolitana, según el tema de sus publicaciones, es el referido a los sentimientos tales como el amor («Análisis sentimental»).  Los distritos con mayor actividad tuitera en Lima Metropolitana son Miraflores, San Borja y Lince.  Los segmentos más relevantes en los distritos con mayor actividad tuitera de Lima Metropolitana son los referidos a temas sociales, tales como el amor, la música y los deportes. Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 10. DISEÑO MUESTRAL Tipo de Investigación: Cuantitativa concluyente Universo: Usuarios de twiter de los 43 distritos de Lima Metropolitana (No incluye la provincia constitucional del Callao) Marco Muestral: Usuarios registrados dentro de Lima Metropolitana Método de muestreo: Selección aleatoria simple. Tipo de Población: Población infinita (1.5 millones de usuarios de Twiter de Lima Metropolitana Nivel de confianza: 95% Margen de Error: 2.5% Tamaño de muestra: 1500 usuarios Periodo de Análisis: Del 04 de Junio al 04 de Julio Company Proprietary and Confidential This Copyright Info Goes Here Just Like 10
  • 11. ANÁLISIS DESCRIPTIVO 11 Twiteros por Distrito San Borja Cercado de Lima Magdalena del Mar La Molina San Miguel Los Olivos Jesús María Rimac Surquillo San Juan de Lurigancho Comas Ate San Juan de Miraflores Carabayllo Cieneguilla Santa María del Mar Independencia Punta Hermosa Puente Piedra Pachacamac Lurigancho Ancón Company Proprietary and Confidential This 2% 2% 1% 1% 1% 1% 1% 1% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 4% 3% Copyright Info Goes Here Just Like 5% 7% 9% 9% 13% 13% 12% 15%
  • 12. Creación de las Variables 12 Variables Política Economía Celulares Computadora Palabras mencionadas relacionadas ollanta,nadine,congreso,alan garcia,alejandro toledo,ministro,politica bolsa,tlc,dinero,banco,mercado,inversion,economía,exportación,importación,pymes ipad,iphone,S4,wifi,smartphone,G3,galaxy,celular computadora,tablet,laptop,toshiba,sony,touch,vaio,hp Deporte futbol,deporte,voley,markarian,gol,manuel burga,claudio pizarro,paolo guerrero, estadio,jefferson farfan,universitario,arbitro,clásico,estadio,alianza lima,hinchas,selección de futbol,mundial brasil Musica Teatro Cine cantante,canción,disco,video clic,discoteca,compositor,fiesta,musica,concierto,giras,ritmo,radio teatro,libreto,personajes,taquilla,obras,actor,elenco,actriz,comedia,drama trailer,cartelera,estreno,asu mare,cinescape Juegos Salud gamers,starcraft,play2,pla3,video juegos,juegos online,dota,playstation,ps3,ps2,psvita,xbox,wii,3d,god of war,psp salud,medicina,pastilla,vacunas,virus,gripe,epidemias,cancer, naturista,hospital,paciente,essalud,clínica,médico,doctor,enfermera Sentimiento Turismo amor,cariño,flechazo,corazón,amistad,enamorado,novio,matrimonio,boda,cupido,divorcio,love,amante machupichu,guia,feriado,turismo,viaje,vuelo,hotel,tour,viaje Farándula chollywood,esto es guerra,combate,enemigos publicos,rating,la noche es mia,magaly medina,gran show,telenovelas gastón acurio,sopa,postres,reposteria,restaurante,mixtura,cebiche,pollo a la brasa,dieta Otras palabras encontradas Gastronomía Otros Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 14. SEGMENTACIÓN 14 c 1 2 Nombre Gamers Tecnológicos Descripción Gente cuyas preferencias están ligados específicamente a todo lo que tiene que ver con juegos de video, sus comentarios ván desde los últimos juegos hasta las críticas a las consolas de juego tales como el PS2 o el PS3. Personas cuya afición es todo lo relacionado a la tecnología, cuya tendencia es más fuerte cada día, así en este segmento encontraremos a los amantes de los celulares y computadortas de moda 361 24.1% 96.1% 4.4% 8.0% 37.4% 19.4% 12.2% 3.6% 7.8% 15.0% 13.9% 16.3% 14.7% 8.6% 14.7% 8.6% 317 21.1% 41.0% 5.0% 99.1% 9.8% 12.9% 96.5% 9.1% 21.5% 22.0% 29.3% 8.5% 19.2% 41.0% 30.6% 37.5% Absolutos % Juegos Sentimientos Computadoras Otros Economía Menciones Celulares en cada una Política de las Turismo variables Salud del estudio Teatro gastronomía Cine Música Farándula Deporte Tamaño Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 15. SEGMENTACIÓN 15 c 3 Nombre Románticos Ejecutivos Los ejecutivos son los que Los Románticos está conformado comentan todo respecto a lo que por aquellas personas las cuales es política y economía ya que está suelen escribir palabras de amor, relacionado con lo que los ya sean poemas o frase, también apasiona, es decir su trabajo, así y en menor intensidad comentan mismo se ve que opinan sobre sobre la farándula local y les gusta salud aspecto que en otros seguir todo lo respecto a la estudias se ha visto es importante música dentro de los ejecutivos jóvenes Descripción Absolutos % Tamaño Juegos Sentimientos Computadoras Otros Economía Menciones Celulares en cada una Política de las Turismo variables Salud del estudio Teatro gastronomía Cine Música Farándula Deporte Company Proprietary and Confidential This 4 Copyright Info Goes Here Just Like 283 18.9% 3.2% 98.9% 22.3% 14.5% 8.1% 9.2% 10.2% 29.3% 6.4% 18.0% 30.4% 36.4% 50.9% 52.3% 20.8% 199 13.3% 6.0% 32.2% 12.6% 11.6% 84.4% 43.2% 80.9% 29.6% 66.8% 25.6% 27.1% 24.6% 19.1% 23.1% 5.5%
  • 16. SEGMENTACIÓN 16 c 5 6 Nombre Relajados Diversos Son personas cuyas principal afición son los viajes o todo lo relacionado al turismo, por ello sus princiaples twits es respecto a lugares turísticos, recomendaciones de hospedaje, etc En este segmento se encuentran todos los twiteros que opinan respecto a los otros temas que resultaron en minoría en el análisis como por ejemplo, el clima, el medio ambiente, etc. Descripción Absolutos % Tamaño Juegos Sentimientos Computadoras Otros Economía Menciones Celulares en cada una Política de las Turismo variables Salud del estudio Teatro gastronomía Cine Música Farándula Deporte Company Proprietary and Confidential This Copyright Info Goes Here Just Like 194 12.9% 24.2% 22.2% 12.4% 11.3% 56.7% 32.0% 6.7% 93.8% 13.9% 20.1% 21.6% 14.4% 10.3% 11.3% 4.1% 146 9.7% 15.1% 0.0% 9.6% 95.2% 11.6% 13.0% 10.3% 8.2% 5.5% 2.1% 8.9% 24.7% 13.7% 8.9% 8.2%
  • 17. Tamaño de los segmentos encontrados Ejecutivos Relajados 13% 13% Románticos 19% Tecnológicos 21% Company Proprietary and Confidential This Copyright Info Goes Here Just Like Diversos 10% Gamers 24% 17
  • 18. SEGMENTOS POR DISTRITO 18 En el siguiente cuadro observamos cómo están distribuidos los segmentos con respecto al distrito de los usuarios de Twiter. De dónde observamos que los distritos con mayor actividad twitera son los distritos de: San Borja, Miraflores, Cercado de Lima, San Isidro, Magdalena del Mar y Lince. Código 41 18 1 27 17 14 12 33 32 30 39 13 11 Distrito San Borja Miraflores Cercado de Lima San Isidro Magdalena del Mar Lince La Molina Santiago de Surco San Miguel San Luis Los Olivos La Victoria Jesús María Company Proprietary and Confidential This Ejecutivos 10.8% 14.9% 13.6% 13.5% 11.2% 15.2% 11.0% 15.3% 7.1% 22.9% 6.7% 12.0% 26.3% Copyright Info Goes Here Just Like Gamers 36.2% 10.4% 24.6% 23.6% 26.1% 20.5% 22.0% 26.4% 25.0% 16.7% 23.3% 36.0% 21.1% Otros Relajados Románticos Tecnológicos Total general 9.1% 5.6% 16.4% 22.0% 15% 7.0% 23.9% 21.9% 21.9% 13% 11.0% 11.0% 17.8% 22.0% 13% 11.8% 14.0% 16.9% 20.2% 12% 14.2% 14.9% 16.4% 17.2% 9% 13.6% 9.1% 17.4% 24.2% 9% 6.0% 12.0% 28.0% 21.0% 7% 8.3% 8.3% 19.4% 22.2% 5% 12.5% 16.1% 19.6% 19.6% 4% 8.3% 12.5% 27.1% 12.5% 3% 10.0% 10.0% 16.7% 33.3% 2% 4.0% 16.0% 16.0% 16.0% 2% 10.5% 10.5% 10.5% 21.1% 1%
  • 19. CONCLUSIONES 19  Los segmentos encontrados son: Gamers, Tecnológicos, Románticos, Ejecutivos, Relajados y otros.  El segmento con mayor volumen es el de los Gamers y Los Tecnológicos.  Los distritos con mayor actividad twitera son : San Borja, Miraflores, Cercado de Lima, San Isidro, Magdalena del Mar y Lince. Que corresponde al 70% de la población Twitera de Lima Metropolitana.  En el distrito de Miraflores los Twiteros tienen mayor preponderancia en los segmentos Relajados y Romanticos, mientras que en el resto de distritos no hay algun segmento que resalte. Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 20. OPORTUNIDADES 20  Otro enfoque con el cual se puede trabajar este tipo de segmentaciones es desde el punto de vista frecuentista, es decir tomando en cuenta la cantidad de publicaciones que hacen sobre un tema, esto permitiría ya no sólo trabajar con una segmentación de dos fases si n también con las segmentaciones clásicas como la jerárquica o la de k medias.  Este tipo de segmentaciones se deberían hacer en forma periódica ya que está influenciado por los temas que comenta la gente, por ende si hay alguna noticia de impacto puede provocar ciertos sesgos al momento de determinar los segmentos dentro de la población.  Sería aconsejable ampliar el periodo de análisis como por ejemplo de 1 año, de tal forma de evitar los temas coyunturales que dificultan una óptima segmentación.  La segmentación se podría ver enriquecida aumentando al análisis variables demográficas como por ejemplo género, edad, nivel socioeconómico, etc. Company Proprietary and Confidential This Copyright Info Goes Here Just Like
  • 21. 21 GRACIAS!!! Company Proprietary and Confidential This Copyright Info Goes Here Just Like