7. Big Data: uma tendência
Mundo
• Big data analytics
• Data analytics
• Hadoop
• Hadoop big data
• The big data
• Big data google
• Big data ibm
• Big data 2013
• Big data oracle
• Big data wiki
Brasil
• veja big data
Expressões e buscas relacionadas:
8. Big data: o que é?
1 ZETA BYTE = 1 073 741 824 TB (≅ 1 bilhão de terabytes)
90% dos dados existentes foram produzidos nos últimos 12 meses
9. Big data: o que é?
1. Texto: emails, posts, tweets, notícias, relatórios, artigos
acadêmicos, conteúdo de sites etc.
2. Registros da web: informações sobre o acesso (Google
Analytics, Blogger, WordPress, Facebook), tendências das
buscas (Google Trends) etc.
3. Dados governamentais: IBGE, saúde (DataSUS), educação
(Inep, MEC), Portal da
Transparência, Siconv, TSE, CadÚnico, Matriz de
Informações Sociais etc. (Lei de Acesso à Informação)
4. Repositórios públicos: CIS, CEM, Observatório das
Metrópoles, IpeaData, IPUMs, Amazon Public DataSets
(AWS), Freebase, DataVerse,
5. Dados geográficos: mapas
(shapes, ruas, imagens), imagens de
satélite, coordenadas, endereços etc.
6. Filmes, livros, vídeos caseiros, fotos, quadros, charges…
10. Big data: o que é?
Veracity / Validity / Reliability
11. Big data: o que é?
• Interesses comerciais
– Clientes, produtos, perfis de mercado...
• Interesses Políticos
– Eleições
– Opinião/aprovação
– Gestão de políticas
• Interesses acadêmicos
– Novas fontes empíricas para pesquisa
– Etc...
12. Big data: Big problem
– Fontes difusas / Múltiplas / Diversas
– Periodicidade irregular
– Problemas de codificação
• Inconsistência
• IDs não padronizados
• Dados faltantes (missing)
• Dados duplicados
– Falta de controle sobre a produção do dado
• Eventuais viéses
– Dificuldade de acesso a fontes não públicas
– Operações repetitivas e “infinitas”
13. Big data: Big problem
Dados, muitos dados…. Lixo, muito lixo…
Como tornar útil a informação disponível?
14. Big data: Big problem
“Big data is not about the data”
Gary King
15. Big data: Capacidade de Análise
Analytics
• Infraestrutura
– Softwares: SAS, RevolutionR, Hadoop,
– Hardware: multicore, servidores,
clusters etc…
• “Capital Humano”
– Programação estatística, programação
“mesmo”, alguma iniciação em Exatas…
(Fenomeno da TI)
16.
17. R & Big Data
• Open Source
• Ferramentas de análise de dados (estatística)
– Quantidade abrangente de pacotes e funções
• Ferramentas para gerenciar dados
• Plataforma de programação (automação)
– Coleta de dados na internet (webscrapping)
– Criação de rotinas e funções pelos próprios usuários
• Ampla comunidade
(fóruns, grupos, blogs, sites, ajudas on-
line, exemplos etc.)
18. R, Big Data e Ciências Sociais
• Pensar “fora da caixa”: novos dados, novas questões
• Necessidade de novas capacidades
• Velocidade e automação
• Quanti + Quali
• Aproximação de outras áreas de conhecimento