2. 2
.:: Agenda ::.
Motivação
O problema
As oportunidades
Curiosidades
Histórico
Conceitos
O que é Big Data ?
Por que “Big Data”?
Os 3 V´s do Big Data
+ 2 V´s do Big Data
3. 3
.:: Agenda ::.
Aplicações
Tecnologias
MapReduce
O Framework Hadoop
NoSQL e BDinMemory
Big Data em 3 Etapas
Trabalhos Relacionados
Conclusão
4. 4
.:: Motivação ::. O problema
Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011
“A verdadeira questão não é que você está
coletando grandes quantidades de dados, mas
sim o que você faz com eles. As organizações
terão que ser capazes de aproveitar os dados
relevantes e usá-los para tomar as melhores
decisões.” (IDC, 2011)
5. 5
.:: Motivação ::. As oportunidades
Fonte: http://corporate.canaltech.com.br/noticia/banco-de-dados/A-maioria-das-empresas-ainda-nao-se-adaptou-ao-Big-Data/
Estudo com 500 empresa americanas de vários
setores
+ 42% das empresas não estão familiarizadas com análise de Big
Data;
+ 34 % estão apenas começando a lidar com essa tendência;
+ 9 % afirmam ter muitos dados e não saber o que fazer com eles;
A maioria enxerga a importância do Big Data, mas não
sabe quando vai investir em soluções para tal;
6. 6
.:: Motivação ::. As oportunidades
Fonte: http://www.businessinsider.com/billion-dollar-tech-trends-2012-11?utm_source=feedburner&utm_medium=feed&utm
_campaign=Feed%3A+typepad%2Falleyinsider%2Fsilicon_alley_insider+%28Silicon+Alley+Insider%29&utm_content=Google+Reade /
9 Tendências de Tecnologia segundo o IDC
+ Os gastos com TI serão da ordem de U$ 2,1 trilhões em 2013;
+ Crescimento considerável da TI em países emergentes;
+ 2013 é o ano decisivo para o Mercado Móvel;
+ Crescimento das soluções de SaaS (Grandes x Pequenos)
+ Surgimento de empresas menores especializadas em Nuvem;
+ Todo mundo vai se tornar uma pessoa de TI;
+ Crescimento de 40% no mercado de dados (Big Data ainda
maior)
+ DataCenters migrarão para um novo modelo (Sistemas
Convergentes)
+ Mudança de BYOD para BYID;
7. 7
.:: Motivação ::. As oportunidades
4,4 milhões de empregos na área de TI até 2015 por
conta do Big Data (Gartner,2012)
A profissão do futuro será o Cientista de Dados
(Gartner, 2012);
Silício Nanofotônico = Pulsos de Luz para transmissão
de informações – ate 25Gpbs (IBM, 2012)
Processadores da Linha AVOTON Intel - Novo
paradigma voltado para aplicações específicas
(Intel,2012)
8. 8
.:: Motivação ::. Curiosidades
Fonte: Using Private Cloud to solve Big Data problems, disponível em
https://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF
9. 9
.:: Motivação ::. Curiosidades
Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco
10. 10
Alguns Números do Facebook
+ 500 TB de informações todos os dias;
+ 2,7 Bilhões de “Curtir”;
+ 2,5 Bilhões de compartilhamentos diários;
+ Disco Hadoop tem 100 petabytes de capacidade;
+ 300 milhões de fotos postadas por dia.
.:: Motivação ::. Curiosidades
Fonte: http://www.slashgear.com/facebook-data-grows-by-over-500-tb-daily-3243691/?
utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+slashgear+%28SlashGear
%29&utm_content=Google+Reader]
12. 12
Até 2003 :: 5 bilhões de gigabytes (exabytes) de dados
2011 : : 5 bilhões de gigabytes (exabytes) a cada 2 dias.
2013 : : 5 bilhões de gigabytes (exabytes) a cada 10min.
.:: Motivação ::. Curiosidades
Fonte: IDC
13. 13
.:: Histórico ::.
Crescimento de Dados Científicos
Computação Distribuída
Bancos de Dados Relacional
16. 16
.:: Histórico ::.
Fonte: https://under-linux.org/entry.php?b=2603
Computação Distribuída
Computação distribuída significa pegar uma
tarefa, dividi-la em pedaços menores e dar cada
pedaço a um servidor diferente, depois pegar cada
resultado, uni-los (de maneira coerente) e
apresentá-lo.
Dificuldade
Processamento X Distribuição (Divisão)
Integridade e Disponibilidade em Cloud Computing
18. 18
.:: Conceitos ..: O que é Big Data?
Demchenko, Y., P. Membrey, P.Grosso, C. de Laat, Addressing Big Data Issues in Scientific Data Infrastructure. First International
Symposium on Big Data and Data Analytics in Collaboration (BDDAC 2013). Part of The 2013 Int. Conf. on Collaboration Technologies and
Systems (CTS 2013), May 20 - 24, 2013, San Diego, California, USA.
“Big Data: a massive volume of both
structured and unstructured data that is so
large that it's difficult to process using
traditional database and software
techniques.”
20. 20
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
Aspectos Fundamentais para o crescimento do “Big
Data”:
+ Aumento da capacidade de armazenamento;
21. 21
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
22. 22
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
23. 23
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
Aspectos Fundamentais para o crescimento do “Big
Data”:
+ Aumento da capacidade de armazenamento;
+ Aumento do poder de processamento;
24. 24
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
25. 25
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
Aspectos Fundamentais para o crescimento do “Big
Data”:
+ Aumento da capacidade de armazenamento;
+ Aumento do poder de processamento;
+ Disponibilidade do dados
— Dados empresariais;
— Dados de dispositivos móveis e mídias sociais;
— Dados da Internet das coisas.
26. 26
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
27. 27
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
28. 28
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
30. 30
.:: Conceitos ..: + 2 V’s do Big Data
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/
VeracidadeVeracidade
ValorValor
31. 31
Big Data Exploration
Find, visualize,
understand all big data to
improve decision making
Enhanced 360o
View
of the Customer
Extend existing customer
views (MDM, CRM, etc) by
incorporating additional
internal and external
information sources
Operations Analysis
Analyze a variety of machine
data for improved business
results
Data Warehouse Augmentation
Integrate big data and data warehouse
capabilities to increase operational
efficiency
Security/Intelligence
Extension
Lower risk, detect fraud
and monitor cyber
security in real-time
.:: Aplicações ::.
Fonte: IBM
32. 32
Lower-frequency
operations
High-frequency
operations
Data
Source
.:: Aplicações ::.
Capital markets
Write/index all trades,
store tick data
Show consolidated risk
across traders
Call initiation request Real-time authorization Fraud detection/analysis
Inbound HTTP
requests
Visitor logging, analysis,
alerting
Traffic pattern analytics
Online game
Rank scores:
•Defined intervals
•Player “bests”
Leaderboard lookups
Real-time ad trading
systems
Match form factor,
placement criteria, bid/ask
Report ad performance
from exhaust stream
Mobile device
location sensor
Location updates, QoS,
transactions
Analytics on transactions
Fonte: VoltDB
33. 33
.:: Tecnologias ::. MapReduce
Criado pela Equipe do Google em 2004;
Várias implementações existentes: Hadoop, Disco,
Skynet, FileMap e Greenplum;
Fonte: https://under-linux.org/entry.php?b=2603
35. 35
.:: Tecnologias ::. MapReduce
Divide uma tarefa em pedaços menores;
Envia as tarefas para os servidores;
Coleta os resultados das tarefas;
Processa os resultados obtendo uma resposta única
Fonte: https://under-linux.org/entry.php?b=2603
36. 36
.:: Tecnologias ::. O framework Hadoop
Hadoop é um framework para facilitar o
desenvolvimento de aplicações distribuídas. E dentro
desse framework existem essas duas funcionalidades
importantes: MapReduce e DFS
Fonte: https://under-linux.org/entry.php?b=2603
37. 37
.:: Tecnologias ::. O framework Hadoop
Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
Criado pela Equipe do Google em 2004;
Várias implementações existentes: Hadoop, Disco,
Skynet, FileMap e Greenplum;
38. 38
.:: Tecnologias ::. O framework Hadoop
Fonte: http://www.ime.usp.br/~danielc/papers/erad-hadoop-DanielCordeiro.pdf
Composto por:
• Hadoop Common
• Hadoop MapReduce
• Hadoop Distributed File System
(HDFS)
39. 39
.:: Tecnologias ::. O framework Hadoop
Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
Principais características do Hadoop.
Escalável: ele pode armazenar e processar petabytes sem problemas;
Econômico: o Hadoop distribui os dados e o processamento através dos
clusters. Estes clusters podem ter milhares de nós (máquinas);
Eficiente: Por distribuir os dados, o Hadoop pode processar eles em paralelo
por meio dos nós, onde os dados estão alocados. Isto é feito de forma
extremamente rápida;
Confiável: ele automaticamente mantém múltiplas cópias dos dados e
automaticamente remaneja as tarefas em caso de falhas.
40. 40
.:: Tecnologias ::. O framework Hadoop
Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
41. 41
.:: Tecnologias ::. NoSQL e BDinMemory
NoSQL
FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data
Tipo de banco de dados que não segue normas de
tabelas (schemas) dos BDs Relacionais;
Conceito de que o banco de dados não necessita de
normalização e relacionamentos – (Not only SQL –
NoSQL);
Necessidade, ou seja, oferecer performance superior e
de uma alta escalabilidade;
Toda informação num só registro;
42. 42
BD in Memory
.:: Tecnologias ::. NoSQL e BDinMemory
BD in Memory - Desafios
Unificar o processo
transacional e de
análises num único
sistema;
Mesmo tipo de
instâncias de dados;
Executar análises em
tempo real;
Rodar transações e
análises na “velocidade
do pensamento”;
FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data
43. 43
.:: Tecnologias ::. Big Data em 3 etapas
Online
gaming
Ad
serving
Sensor
data
Internet
commerc
e
SaaS,
Web 2.0
Mobile
platforms
Financial
trade
Structured data
ACID guarantees
Relational/SQL
Real-time analytics
NewSQL
Unstructured data
Eventual consistency
Schemaless
KV, document
NoSQL
Other OLAP
data stores
Analytic
Datastore
High Velocity High Volume
Fonte: VoltDB
44. 44
.:: Tecnologias ::. Big Data em 3 etapas
Online
gaming
Ad
serving
Sensor
data
Internet
commerc
e
SaaS,
Web 2.0
Mobile
platforms
Financial
trade
NewSQL
NoSQL
Other OLAP
data stores
Analytic
Datastore
High Velocity High Volume
Fonte: VoltDB
45. 45
.:: Trabalhos Relacionados ::.
Storage: projetar sistemas apropriados para lidar com
o crescente volume de dados de forma efetiva;
Management: questões relacionadas com a gestão
dos dados. Como validar e selecionar? Ausência de
padrões.
Processing: Como inspecionar, analisar dados não
estruturados? Como extrair significado relevante para
tomada de decisão. Algoritmos mais eficientes para
grandes volumes de dados.
Big Data: Issues and Challenges Moving Forward
Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. Big Data: Issues and
Challenges Moving Forward.System Sciences .46th Hawaii International
Conference on (pp. 995-1004), 2013.
http://dx.doi.org/10.1109/HICSS.2013.645
46. 46
.:: Trabalhos Relacionados ::.
Associação do problema de processamento de Big Data com
Cloud Computing, redução de custo e escalabilidade;
Considerações a respeito da arquitetura de nuvem e técnicas
para distribuir tasks de processamento em Cloud;
Limitações de protocolos para transferência de dados;
Gestão de dados na nuvem, melhorias baseadas nos dados,
segurança e privacidade;
Desenvolvimento com foco em sistemas de consultas em
tempo real;
Adoção de SQL em Big Data;
State of Big Data Analysis in the Cloud
AHUJA, Sanjay P, MOORE, Bryan. State of Big Data Analysis in the Cloud.
Network and Communication Technologies, Vol. 2, No. 1, June 2013. DOI:
10.5539/nct.v2n1p62
47. 47
.:: Conclusão ::.
Muitos desafios a serem superados;
Empresas ainda não sabem utilizar os recurso de Big Data;
Faltam profissionais capacitados para lidar com Big Data;
Ainda é um terreno desconhecido para profissionais de TI;
É difícil extrair informações relevantes do Big Data;
Não há métricas bem definidas para mensurar ROI;
Faltam padrões;
Ferramentas disponíveis ainda exigem conhecimento técnico
avançado e pouco difundido;