SlideShare une entreprise Scribd logo
1  sur  24
Data mining em redes sociais
SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por
minuto em notícias enviadas
para o Twitter para determinar
notícias importantes / urgentes.
Primeiro experimento:
SigaSeuTime (BREAKING NEWS)
Aprendizado:
O tempo de reação de
informações enviadas em redes
sociais é muito rápido, e portanto
permite análises em tempo real
bastante úteis.
Primeiro experimento:
Uso de streaming real time
Twitter para determinar a
“temperatura” de torcedores de
futebol em tempo real
Tuitômetro das torcidas
Segundo experimento:
Na (trágica) eliminação do
Corinthians pelo Tolima,
capturamos
5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 1:
O fenômeno de second screen é
real, e permite que se analise em
tempo real a opinião das
pessoas em relação a eventos.
“IBOPE SOCIAL”
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 2:
O Streaming real time gratuito do
Twitter é uma fonte de
informações valiosíssima e muito
rápida.
4MM tweets / dia
Tuitômetro das torcidas
Segundo experimento:
Experimento cujo objetivo é
verificar se o valor de uma marca
se reflete no buzz online que ela
gera.
http://mosttweetedbrands.com
Most Tweeted Brands
Terceiro experimento:
Em média, 2MM de Tweets / dia
A marca mais citada no Twitter
é….
O Facebook
Most Tweeted Brands
Terceiro experimento:
BrandMagz
Quarto experimento:
Revista digital que mede o pulso
de uma marca / celebridade /
tema nas redes sociais
Quais as fontes de dados?
APIs, APIs, APIs…
• Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?
Detecção de lingua:
• CLD (chromium compact language detector)
• https://code.google.com/p/chromium-compact-
language-detector/
Wordcloud
• NLTK (Natural Language Toolkit)
• http://www.nltk.org/
Quais dados são extraídos?
Texto
• 50% dos tweets geolocalizados
– Minoria adiciona informação de lat/long no
tweet (-5%)
– Análise de texto livre
• Base de dados própria com nomes de cidades em
diversas linguas
– 3744 nomes de cidades
– 1900 nomes de países
– 90 provincias
Quais dados são extraídos?
Geolocalização
• Fotos
–Instagram
–Facebook
–Twitter
• Video
–Facebook
–Vine
–Youtube
–Vimeo
Quais dados são extraídos?
Mídia
• Links externos encontrados em posts são
tratados separadamente
• Conteúdos de blogs e notícias são
processados por algoritmo de “limpeza”
de HTML
– Heurísticas para extração do conteúdo que
realmente importa de uma página web
– Fork próprio do readability-lxml
• https://github.com/mgalves/python-readability
Quais dados são extraídos?
Links externos
Quais tecnologias são
utilizadas?
Twitter
Youtube
Vimeo
Vine
Facebook
Instagram
CELERY
BROKER
REDIS
MySQL
Celery
Worker
Celery
Worker
Celery
Worker
Celery
Worker
Qual a arquitetura?
W
E
B
• Amazon AWS
• Duas instâncias EC2 m3.large
– 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL
• OpsWork + Chef
• S3 para armazenamento de arquivos
estáticos
• CloudWatch
• Apenas um devops: eu.
Como é feito o deploy?
• Em média, 400 tweets / minuto
• Em 24h:
– 150k posts
– 5.5k links de conteúdo
– 23k imagens
– 3k videos
Qual o volume de dados
processados?
• Em dia de jogo do Barça, Neymar recebe
em média 150k menções.
• Quando o Corinthians foi campeão da
Libertadores, foram 2MM de menções em
3 horas.
Algumas curiosidades
mgalves@gmail.com
Obrigado!

Contenu connexe

Similaire à Data Mining em redes sociais

apresentação do twitter,prezi e slide share
apresentação do twitter,prezi e slide shareapresentação do twitter,prezi e slide share
apresentação do twitter,prezi e slide share
Fernanda Abreu
 

Similaire à Data Mining em redes sociais (20)

Desenvolvimento de aplicações para o Twitter
Desenvolvimento de aplicações para o TwitterDesenvolvimento de aplicações para o Twitter
Desenvolvimento de aplicações para o Twitter
 
Analisando eventos de forma inteligente para detecção de intrusos usando ELK
Analisando eventos de forma inteligente para detecção de intrusos usando ELKAnalisando eventos de forma inteligente para detecção de intrusos usando ELK
Analisando eventos de forma inteligente para detecção de intrusos usando ELK
 
Conexoesglobais
ConexoesglobaisConexoesglobais
Conexoesglobais
 
Without A Trace - What to do when it seems there\'s nothing to do - References
Without A Trace - What to do when it seems there\'s nothing to do - ReferencesWithout A Trace - What to do when it seems there\'s nothing to do - References
Without A Trace - What to do when it seems there\'s nothing to do - References
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
 
Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...
Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...
Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...
 
TweetAuditor
TweetAuditorTweetAuditor
TweetAuditor
 
A era da incerteza
A era da incertezaA era da incerteza
A era da incerteza
 
Investigação de Crimes Digitais - Carreira em Computação Forense
Investigação de Crimes Digitais - Carreira em Computação ForenseInvestigação de Crimes Digitais - Carreira em Computação Forense
Investigação de Crimes Digitais - Carreira em Computação Forense
 
Hackers
HackersHackers
Hackers
 
apresentação do twitter,prezi e slide share
apresentação do twitter,prezi e slide shareapresentação do twitter,prezi e slide share
apresentação do twitter,prezi e slide share
 
Crimes Digitais e Computacao Forense para Advogados v1
Crimes Digitais e Computacao Forense para Advogados v1Crimes Digitais e Computacao Forense para Advogados v1
Crimes Digitais e Computacao Forense para Advogados v1
 
Segurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoT
Segurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoTSegurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoT
Segurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoT
 
H2HC University 2014
H2HC University 2014H2HC University 2014
H2HC University 2014
 
MDF
MDFMDF
MDF
 
#smbr - Polvora
#smbr - Polvora#smbr - Polvora
#smbr - Polvora
 
Percepções sobre as Redes Sociais - Social Media Brasil
Percepções sobre as Redes Sociais - Social Media BrasilPercepções sobre as Redes Sociais - Social Media Brasil
Percepções sobre as Redes Sociais - Social Media Brasil
 
Percepção das redes sociais - Edney Souza - Social Media Brasil
Percepção das redes sociais - Edney Souza - Social Media BrasilPercepção das redes sociais - Edney Souza - Social Media Brasil
Percepção das redes sociais - Edney Souza - Social Media Brasil
 
Percepção das Redes Sociais
Percepção das Redes SociaisPercepção das Redes Sociais
Percepção das Redes Sociais
 

Plus de Miguel Galves (8)

Redis para iniciantes - TDC 2014
Redis para iniciantes - TDC 2014Redis para iniciantes - TDC 2014
Redis para iniciantes - TDC 2014
 
New Strategy to detect SNPs
New Strategy to detect SNPsNew Strategy to detect SNPs
New Strategy to detect SNPs
 
Comparison of Genomic DNA to cDNA Alignment Methods
Comparison of Genomic DNA to cDNA Alignment MethodsComparison of Genomic DNA to cDNA Alignment Methods
Comparison of Genomic DNA to cDNA Alignment Methods
 
Qualificação de Mestrado
Qualificação de MestradoQualificação de Mestrado
Qualificação de Mestrado
 
Uma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de base únicaUma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de base única
 
Django: Uso de frameworks ágeis para desenvolvimento web
Django: Uso de frameworks ágeis para desenvolvimento webDjango: Uso de frameworks ágeis para desenvolvimento web
Django: Uso de frameworks ágeis para desenvolvimento web
 
GIS em 3 horas
GIS em 3 horasGIS em 3 horas
GIS em 3 horas
 
AJAX
AJAXAJAX
AJAX
 

Data Mining em redes sociais