SlideShare une entreprise Scribd logo
1  sur  47
BigBig DataData
Marcos Luiz Lins FilhoMarcos Luiz Lins Filho
Setembro 2013Setembro 2013
2
.:: Agenda ::.
 Motivação
O problema
As oportunidades
Curiosidades
 Histórico
 Conceitos
O que é Big Data ?
Por que “Big Data”?
 Os 3 V´s do Big Data
 + 2 V´s do Big Data
3
.:: Agenda ::.
 Aplicações
 Tecnologias
MapReduce
O Framework Hadoop
NoSQL e BDinMemory
Big Data em 3 Etapas
 Trabalhos Relacionados
 Conclusão
4
.:: Motivação ::. O problema
Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011
“A verdadeira questão não é que você está
coletando grandes quantidades de dados, mas
sim o que você faz com eles. As organizações
terão que ser capazes de aproveitar os dados
relevantes e usá-los para tomar as melhores
decisões.” (IDC, 2011)
5
.:: Motivação ::. As oportunidades
Fonte: http://corporate.canaltech.com.br/noticia/banco-de-dados/A-maioria-das-empresas-ainda-nao-se-adaptou-ao-Big-Data/
 Estudo com 500 empresa americanas de vários
setores
+ 42% das empresas não estão familiarizadas com análise de Big
Data;
+ 34 % estão apenas começando a lidar com essa tendência;
+ 9 % afirmam ter muitos dados e não saber o que fazer com eles;
 A maioria enxerga a importância do Big Data, mas não
sabe quando vai investir em soluções para tal;
6
.:: Motivação ::. As oportunidades
Fonte: http://www.businessinsider.com/billion-dollar-tech-trends-2012-11?utm_source=feedburner&utm_medium=feed&utm
_campaign=Feed%3A+typepad%2Falleyinsider%2Fsilicon_alley_insider+%28Silicon+Alley+Insider%29&utm_content=Google+Reade /
 9 Tendências de Tecnologia segundo o IDC
+ Os gastos com TI serão da ordem de U$ 2,1 trilhões em 2013;
+ Crescimento considerável da TI em países emergentes;
+ 2013 é o ano decisivo para o Mercado Móvel;
+ Crescimento das soluções de SaaS (Grandes x Pequenos)
+ Surgimento de empresas menores especializadas em Nuvem;
+ Todo mundo vai se tornar uma pessoa de TI;
+ Crescimento de 40% no mercado de dados (Big Data ainda
maior)
+ DataCenters migrarão para um novo modelo (Sistemas
Convergentes)
+ Mudança de BYOD para BYID;
7
.:: Motivação ::. As oportunidades
 4,4 milhões de empregos na área de TI até 2015 por
conta do Big Data (Gartner,2012)
 A profissão do futuro será o Cientista de Dados
(Gartner, 2012);
 Silício Nanofotônico = Pulsos de Luz para transmissão
de informações – ate 25Gpbs (IBM, 2012)
 Processadores da Linha AVOTON Intel - Novo
paradigma voltado para aplicações específicas
(Intel,2012)
8
.:: Motivação ::. Curiosidades
 Fonte: Using Private Cloud to solve Big Data problems, disponível em
https://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF
9
.:: Motivação ::. Curiosidades
 Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco
10
 Alguns Números do Facebook
+ 500 TB de informações todos os dias;
+ 2,7 Bilhões de “Curtir”;
+ 2,5 Bilhões de compartilhamentos diários;
+ Disco Hadoop tem 100 petabytes de capacidade;
+ 300 milhões de fotos postadas por dia.
.:: Motivação ::. Curiosidades
 Fonte: http://www.slashgear.com/facebook-data-grows-by-over-500-tb-daily-3243691/?
utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+slashgear+%28SlashGear
%29&utm_content=Google+Reader]
11
Fonte: IBM
.:: Motivação ::. Curiosidades
12
 Até 2003 :: 5 bilhões de gigabytes (exabytes) de dados
 2011 : : 5 bilhões de gigabytes (exabytes) a cada 2 dias.
 2013 : : 5 bilhões de gigabytes (exabytes) a cada 10min.
.:: Motivação ::. Curiosidades
Fonte: IDC
13
.:: Histórico ::.
 Crescimento de Dados Científicos
 Computação Distribuída
 Bancos de Dados Relacional
14
.:: Histórico ::.
Fonte: EMC
 Crescimento de Dados Científicos
15
.:: Histórico ::.
Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf
 Computação Distribuída
16
.:: Histórico ::.
Fonte: https://under-linux.org/entry.php?b=2603
 Computação Distribuída
Computação distribuída significa pegar uma
tarefa, dividi-la em pedaços menores e dar cada
pedaço a um servidor diferente, depois pegar cada
resultado, uni-los (de maneira coerente) e
apresentá-lo.
Dificuldade
Processamento X Distribuição (Divisão)
Integridade e Disponibilidade em Cloud Computing
17
.:: Histórico ::.
Fonte: IMD
 Banco de Dados Relacional
18
.:: Conceitos ..: O que é Big Data?
Demchenko, Y., P. Membrey, P.Grosso, C. de Laat, Addressing Big Data Issues in Scientific Data Infrastructure. First International
Symposium on Big Data and Data Analytics in Collaboration (BDDAC 2013). Part of The 2013 Int. Conf. on Collaboration Technologies and
Systems (CTS 2013), May 20 - 24, 2013, San Diego, California, USA.
“Big Data: a massive volume of both
structured and unstructured data that is so
large that it's difficult to process using
traditional database and software
techniques.”
19
.:: Conceitos ..: O que é Big Data?
FONTE: EMC
20
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
 Aspectos Fundamentais para o crescimento do “Big
Data”:
+ Aumento da capacidade de armazenamento;
21
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
22
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
23
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
 Aspectos Fundamentais para o crescimento do “Big
Data”:
+ Aumento da capacidade de armazenamento;
+ Aumento do poder de processamento;
24
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
25
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
 Aspectos Fundamentais para o crescimento do “Big
Data”:
+ Aumento da capacidade de armazenamento;
+ Aumento do poder de processamento;
+ Disponibilidade do dados
— Dados empresariais;
— Dados de dispositivos móveis e mídias sociais;
— Dados da Internet das coisas.
26
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
27
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
28
.:: Conceitos ..: Por que “Big Data”?
Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
29
.:: Conceitos ..: 3 V’s do Big Data
Fonte: IBM
30
.:: Conceitos ..: + 2 V’s do Big Data
Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/
VeracidadeVeracidade
ValorValor
31
Big Data Exploration
Find, visualize,
understand all big data to
improve decision making
Enhanced 360o
View
of the Customer
Extend existing customer
views (MDM, CRM, etc) by
incorporating additional
internal and external
information sources
Operations Analysis
Analyze a variety of machine
data for improved business
results
Data Warehouse Augmentation
Integrate big data and data warehouse
capabilities to increase operational
efficiency
Security/Intelligence
Extension
Lower risk, detect fraud
and monitor cyber
security in real-time
.:: Aplicações ::.
Fonte: IBM
32
Lower-frequency
operations
High-frequency
operations
Data
Source
.:: Aplicações ::.
Capital markets
Write/index all trades,
store tick data
Show consolidated risk
across traders
Call initiation request Real-time authorization Fraud detection/analysis
Inbound HTTP
requests
Visitor logging, analysis,
alerting
Traffic pattern analytics
Online game
Rank scores:
•Defined intervals
•Player “bests”
Leaderboard lookups
Real-time ad trading
systems
Match form factor,
placement criteria, bid/ask
Report ad performance
from exhaust stream
Mobile device
location sensor
Location updates, QoS,
transactions
Analytics on transactions
Fonte: VoltDB
33
.:: Tecnologias ::. MapReduce
 Criado pela Equipe do Google em 2004;
 Várias implementações existentes: Hadoop, Disco,
Skynet, FileMap e Greenplum;
Fonte: https://under-linux.org/entry.php?b=2603
34
.:: Tecnologias ::. MapReduce
Fonte: https://under-linux.org/entry.php?b=2603
35
.:: Tecnologias ::. MapReduce
 Divide uma tarefa em pedaços menores;
 Envia as tarefas para os servidores;
 Coleta os resultados das tarefas;
 Processa os resultados obtendo uma resposta única
Fonte: https://under-linux.org/entry.php?b=2603
36
.:: Tecnologias ::. O framework Hadoop
Hadoop é um framework para facilitar o
desenvolvimento de aplicações distribuídas. E dentro
desse framework existem essas duas funcionalidades
importantes: MapReduce e DFS
Fonte: https://under-linux.org/entry.php?b=2603
37
.:: Tecnologias ::. O framework Hadoop
Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
 Criado pela Equipe do Google em 2004;
 Várias implementações existentes: Hadoop, Disco,
Skynet, FileMap e Greenplum;
38
.:: Tecnologias ::. O framework Hadoop
Fonte: http://www.ime.usp.br/~danielc/papers/erad-hadoop-DanielCordeiro.pdf
Composto por:
• Hadoop Common
• Hadoop MapReduce
• Hadoop Distributed File System
(HDFS)
39
.:: Tecnologias ::. O framework Hadoop
Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
Principais características do Hadoop.
Escalável: ele pode armazenar e processar petabytes sem problemas;
Econômico: o Hadoop distribui os dados e o processamento através dos
clusters. Estes clusters podem ter milhares de nós (máquinas);
Eficiente: Por distribuir os dados, o Hadoop pode processar eles em paralelo
por meio dos nós, onde os dados estão alocados. Isto é feito de forma
extremamente rápida;
Confiável: ele automaticamente mantém múltiplas cópias dos dados e
automaticamente remaneja as tarefas em caso de falhas.
40
.:: Tecnologias ::. O framework Hadoop
Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
41
.:: Tecnologias ::. NoSQL e BDinMemory
NoSQL
FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data
 Tipo de banco de dados que não segue normas de
tabelas (schemas) dos BDs Relacionais;
 Conceito de que o banco de dados não necessita de
normalização e relacionamentos – (Not only SQL –
NoSQL);
 Necessidade, ou seja, oferecer performance superior e
de uma alta escalabilidade;
 Toda informação num só registro;
42
BD in Memory
.:: Tecnologias ::. NoSQL e BDinMemory
BD in Memory - Desafios
 Unificar o processo
transacional e de
análises num único
sistema;
 Mesmo tipo de
instâncias de dados;
 Executar análises em
tempo real;
 Rodar transações e
análises na “velocidade
do pensamento”;
FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data
43
.:: Tecnologias ::. Big Data em 3 etapas
Online
gaming
Ad
serving
Sensor
data
Internet
commerc
e
SaaS,
Web 2.0
Mobile
platforms
Financial
trade
 Structured data
 ACID guarantees
 Relational/SQL
 Real-time analytics
NewSQL
 Unstructured data
 Eventual consistency
 Schemaless
 KV, document
NoSQL
Other OLAP
data stores
Analytic
Datastore
High Velocity High Volume
Fonte: VoltDB
44
.:: Tecnologias ::. Big Data em 3 etapas
Online
gaming
Ad
serving
Sensor
data
Internet
commerc
e
SaaS,
Web 2.0
Mobile
platforms
Financial
trade
NewSQL
NoSQL
Other OLAP
data stores
Analytic
Datastore
High Velocity High Volume
Fonte: VoltDB
45
.:: Trabalhos Relacionados ::.
 Storage: projetar sistemas apropriados para lidar com
o crescente volume de dados de forma efetiva;
 Management: questões relacionadas com a gestão
dos dados. Como validar e selecionar? Ausência de
padrões.
 Processing: Como inspecionar, analisar dados não
estruturados? Como extrair significado relevante para
tomada de decisão. Algoritmos mais eficientes para
grandes volumes de dados.
Big Data: Issues and Challenges Moving Forward
Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. Big Data: Issues and
Challenges Moving Forward.System Sciences .46th Hawaii International
Conference on (pp. 995-1004), 2013.
http://dx.doi.org/10.1109/HICSS.2013.645
46
.:: Trabalhos Relacionados ::.
 Associação do problema de processamento de Big Data com
Cloud Computing, redução de custo e escalabilidade;
 Considerações a respeito da arquitetura de nuvem e técnicas
para distribuir tasks de processamento em Cloud;
 Limitações de protocolos para transferência de dados;
 Gestão de dados na nuvem, melhorias baseadas nos dados,
segurança e privacidade;
 Desenvolvimento com foco em sistemas de consultas em
tempo real;
 Adoção de SQL em Big Data;
State of Big Data Analysis in the Cloud
AHUJA, Sanjay P, MOORE, Bryan. State of Big Data Analysis in the Cloud.
Network and Communication Technologies, Vol. 2, No. 1, June 2013. DOI:
10.5539/nct.v2n1p62
47
.:: Conclusão ::.
 Muitos desafios a serem superados;
 Empresas ainda não sabem utilizar os recurso de Big Data;
 Faltam profissionais capacitados para lidar com Big Data;
 Ainda é um terreno desconhecido para profissionais de TI;
 É difícil extrair informações relevantes do Big Data;
 Não há métricas bem definidas para mensurar ROI;
 Faltam padrões;
 Ferramentas disponíveis ainda exigem conhecimento técnico
avançado e pouco difundido;

Contenu connexe

Tendances

Tendances (20)

Big Data
Big DataBig Data
Big Data
 
Gestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data FabricGestão Ágil de Dados com Enterprise Data Fabric
Gestão Ágil de Dados com Enterprise Data Fabric
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Era da Informação e seus impactos na empresa e sociedade
Era da Informação e seus impactos na empresa e sociedadeEra da Informação e seus impactos na empresa e sociedade
Era da Informação e seus impactos na empresa e sociedade
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e Hadoop
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Big data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil CrieBig data Instituto Big Data Brasil Crie
Big data Instituto Big Data Brasil Crie
 
BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big data
Big dataBig data
Big data
 
BigData
BigDataBigData
BigData
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 
Plano de Gestão de Dados de investigação: estruturar, organizar e gerir dados
Plano de Gestão de Dados de investigação: estruturar, organizar e gerir dadosPlano de Gestão de Dados de investigação: estruturar, organizar e gerir dados
Plano de Gestão de Dados de investigação: estruturar, organizar e gerir dados
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 

Similaire à BIG DATA

Similaire à BIG DATA (20)

Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Big Data e oportunidades de negócios
Big Data e oportunidades de negóciosBig Data e oportunidades de negócios
Big Data e oportunidades de negócios
 
Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?Big Data: O que é? e por onde começar?
Big Data: O que é? e por onde começar?
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dados
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
BigData
BigDataBigData
BigData
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.
 
Big data e o dirieto internacional - SILVA JR., Nelmon J.
Big data e o dirieto internacional - SILVA JR., Nelmon J.Big data e o dirieto internacional - SILVA JR., Nelmon J.
Big data e o dirieto internacional - SILVA JR., Nelmon J.
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais Diálogos entre cientistas de dados e cientistas sociais
Diálogos entre cientistas de dados e cientistas sociais
 
Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 

BIG DATA

  • 1. BigBig DataData Marcos Luiz Lins FilhoMarcos Luiz Lins Filho Setembro 2013Setembro 2013
  • 2. 2 .:: Agenda ::.  Motivação O problema As oportunidades Curiosidades  Histórico  Conceitos O que é Big Data ? Por que “Big Data”?  Os 3 V´s do Big Data  + 2 V´s do Big Data
  • 3. 3 .:: Agenda ::.  Aplicações  Tecnologias MapReduce O Framework Hadoop NoSQL e BDinMemory Big Data em 3 Etapas  Trabalhos Relacionados  Conclusão
  • 4. 4 .:: Motivação ::. O problema Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011 “A verdadeira questão não é que você está coletando grandes quantidades de dados, mas sim o que você faz com eles. As organizações terão que ser capazes de aproveitar os dados relevantes e usá-los para tomar as melhores decisões.” (IDC, 2011)
  • 5. 5 .:: Motivação ::. As oportunidades Fonte: http://corporate.canaltech.com.br/noticia/banco-de-dados/A-maioria-das-empresas-ainda-nao-se-adaptou-ao-Big-Data/  Estudo com 500 empresa americanas de vários setores + 42% das empresas não estão familiarizadas com análise de Big Data; + 34 % estão apenas começando a lidar com essa tendência; + 9 % afirmam ter muitos dados e não saber o que fazer com eles;  A maioria enxerga a importância do Big Data, mas não sabe quando vai investir em soluções para tal;
  • 6. 6 .:: Motivação ::. As oportunidades Fonte: http://www.businessinsider.com/billion-dollar-tech-trends-2012-11?utm_source=feedburner&utm_medium=feed&utm _campaign=Feed%3A+typepad%2Falleyinsider%2Fsilicon_alley_insider+%28Silicon+Alley+Insider%29&utm_content=Google+Reade /  9 Tendências de Tecnologia segundo o IDC + Os gastos com TI serão da ordem de U$ 2,1 trilhões em 2013; + Crescimento considerável da TI em países emergentes; + 2013 é o ano decisivo para o Mercado Móvel; + Crescimento das soluções de SaaS (Grandes x Pequenos) + Surgimento de empresas menores especializadas em Nuvem; + Todo mundo vai se tornar uma pessoa de TI; + Crescimento de 40% no mercado de dados (Big Data ainda maior) + DataCenters migrarão para um novo modelo (Sistemas Convergentes) + Mudança de BYOD para BYID;
  • 7. 7 .:: Motivação ::. As oportunidades  4,4 milhões de empregos na área de TI até 2015 por conta do Big Data (Gartner,2012)  A profissão do futuro será o Cientista de Dados (Gartner, 2012);  Silício Nanofotônico = Pulsos de Luz para transmissão de informações – ate 25Gpbs (IBM, 2012)  Processadores da Linha AVOTON Intel - Novo paradigma voltado para aplicações específicas (Intel,2012)
  • 8. 8 .:: Motivação ::. Curiosidades  Fonte: Using Private Cloud to solve Big Data problems, disponível em https://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF
  • 9. 9 .:: Motivação ::. Curiosidades  Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco
  • 10. 10  Alguns Números do Facebook + 500 TB de informações todos os dias; + 2,7 Bilhões de “Curtir”; + 2,5 Bilhões de compartilhamentos diários; + Disco Hadoop tem 100 petabytes de capacidade; + 300 milhões de fotos postadas por dia. .:: Motivação ::. Curiosidades  Fonte: http://www.slashgear.com/facebook-data-grows-by-over-500-tb-daily-3243691/? utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+slashgear+%28SlashGear %29&utm_content=Google+Reader]
  • 11. 11 Fonte: IBM .:: Motivação ::. Curiosidades
  • 12. 12  Até 2003 :: 5 bilhões de gigabytes (exabytes) de dados  2011 : : 5 bilhões de gigabytes (exabytes) a cada 2 dias.  2013 : : 5 bilhões de gigabytes (exabytes) a cada 10min. .:: Motivação ::. Curiosidades Fonte: IDC
  • 13. 13 .:: Histórico ::.  Crescimento de Dados Científicos  Computação Distribuída  Bancos de Dados Relacional
  • 14. 14 .:: Histórico ::. Fonte: EMC  Crescimento de Dados Científicos
  • 15. 15 .:: Histórico ::. Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf  Computação Distribuída
  • 16. 16 .:: Histórico ::. Fonte: https://under-linux.org/entry.php?b=2603  Computação Distribuída Computação distribuída significa pegar uma tarefa, dividi-la em pedaços menores e dar cada pedaço a um servidor diferente, depois pegar cada resultado, uni-los (de maneira coerente) e apresentá-lo. Dificuldade Processamento X Distribuição (Divisão) Integridade e Disponibilidade em Cloud Computing
  • 17. 17 .:: Histórico ::. Fonte: IMD  Banco de Dados Relacional
  • 18. 18 .:: Conceitos ..: O que é Big Data? Demchenko, Y., P. Membrey, P.Grosso, C. de Laat, Addressing Big Data Issues in Scientific Data Infrastructure. First International Symposium on Big Data and Data Analytics in Collaboration (BDDAC 2013). Part of The 2013 Int. Conf. on Collaboration Technologies and Systems (CTS 2013), May 20 - 24, 2013, San Diego, California, USA. “Big Data: a massive volume of both structured and unstructured data that is so large that it's difficult to process using traditional database and software techniques.”
  • 19. 19 .:: Conceitos ..: O que é Big Data? FONTE: EMC
  • 20. 20 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/  Aspectos Fundamentais para o crescimento do “Big Data”: + Aumento da capacidade de armazenamento;
  • 21. 21 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  • 22. 22 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  • 23. 23 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/  Aspectos Fundamentais para o crescimento do “Big Data”: + Aumento da capacidade de armazenamento; + Aumento do poder de processamento;
  • 24. 24 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  • 25. 25 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/  Aspectos Fundamentais para o crescimento do “Big Data”: + Aumento da capacidade de armazenamento; + Aumento do poder de processamento; + Disponibilidade do dados — Dados empresariais; — Dados de dispositivos móveis e mídias sociais; — Dados da Internet das coisas.
  • 26. 26 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  • 27. 27 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  • 28. 28 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  • 29. 29 .:: Conceitos ..: 3 V’s do Big Data Fonte: IBM
  • 30. 30 .:: Conceitos ..: + 2 V’s do Big Data Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/ VeracidadeVeracidade ValorValor
  • 31. 31 Big Data Exploration Find, visualize, understand all big data to improve decision making Enhanced 360o View of the Customer Extend existing customer views (MDM, CRM, etc) by incorporating additional internal and external information sources Operations Analysis Analyze a variety of machine data for improved business results Data Warehouse Augmentation Integrate big data and data warehouse capabilities to increase operational efficiency Security/Intelligence Extension Lower risk, detect fraud and monitor cyber security in real-time .:: Aplicações ::. Fonte: IBM
  • 32. 32 Lower-frequency operations High-frequency operations Data Source .:: Aplicações ::. Capital markets Write/index all trades, store tick data Show consolidated risk across traders Call initiation request Real-time authorization Fraud detection/analysis Inbound HTTP requests Visitor logging, analysis, alerting Traffic pattern analytics Online game Rank scores: •Defined intervals •Player “bests” Leaderboard lookups Real-time ad trading systems Match form factor, placement criteria, bid/ask Report ad performance from exhaust stream Mobile device location sensor Location updates, QoS, transactions Analytics on transactions Fonte: VoltDB
  • 33. 33 .:: Tecnologias ::. MapReduce  Criado pela Equipe do Google em 2004;  Várias implementações existentes: Hadoop, Disco, Skynet, FileMap e Greenplum; Fonte: https://under-linux.org/entry.php?b=2603
  • 34. 34 .:: Tecnologias ::. MapReduce Fonte: https://under-linux.org/entry.php?b=2603
  • 35. 35 .:: Tecnologias ::. MapReduce  Divide uma tarefa em pedaços menores;  Envia as tarefas para os servidores;  Coleta os resultados das tarefas;  Processa os resultados obtendo uma resposta única Fonte: https://under-linux.org/entry.php?b=2603
  • 36. 36 .:: Tecnologias ::. O framework Hadoop Hadoop é um framework para facilitar o desenvolvimento de aplicações distribuídas. E dentro desse framework existem essas duas funcionalidades importantes: MapReduce e DFS Fonte: https://under-linux.org/entry.php?b=2603
  • 37. 37 .:: Tecnologias ::. O framework Hadoop Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/  Criado pela Equipe do Google em 2004;  Várias implementações existentes: Hadoop, Disco, Skynet, FileMap e Greenplum;
  • 38. 38 .:: Tecnologias ::. O framework Hadoop Fonte: http://www.ime.usp.br/~danielc/papers/erad-hadoop-DanielCordeiro.pdf Composto por: • Hadoop Common • Hadoop MapReduce • Hadoop Distributed File System (HDFS)
  • 39. 39 .:: Tecnologias ::. O framework Hadoop Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/ Principais características do Hadoop. Escalável: ele pode armazenar e processar petabytes sem problemas; Econômico: o Hadoop distribui os dados e o processamento através dos clusters. Estes clusters podem ter milhares de nós (máquinas); Eficiente: Por distribuir os dados, o Hadoop pode processar eles em paralelo por meio dos nós, onde os dados estão alocados. Isto é feito de forma extremamente rápida; Confiável: ele automaticamente mantém múltiplas cópias dos dados e automaticamente remaneja as tarefas em caso de falhas.
  • 40. 40 .:: Tecnologias ::. O framework Hadoop Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
  • 41. 41 .:: Tecnologias ::. NoSQL e BDinMemory NoSQL FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data  Tipo de banco de dados que não segue normas de tabelas (schemas) dos BDs Relacionais;  Conceito de que o banco de dados não necessita de normalização e relacionamentos – (Not only SQL – NoSQL);  Necessidade, ou seja, oferecer performance superior e de uma alta escalabilidade;  Toda informação num só registro;
  • 42. 42 BD in Memory .:: Tecnologias ::. NoSQL e BDinMemory BD in Memory - Desafios  Unificar o processo transacional e de análises num único sistema;  Mesmo tipo de instâncias de dados;  Executar análises em tempo real;  Rodar transações e análises na “velocidade do pensamento”; FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data
  • 43. 43 .:: Tecnologias ::. Big Data em 3 etapas Online gaming Ad serving Sensor data Internet commerc e SaaS, Web 2.0 Mobile platforms Financial trade  Structured data  ACID guarantees  Relational/SQL  Real-time analytics NewSQL  Unstructured data  Eventual consistency  Schemaless  KV, document NoSQL Other OLAP data stores Analytic Datastore High Velocity High Volume Fonte: VoltDB
  • 44. 44 .:: Tecnologias ::. Big Data em 3 etapas Online gaming Ad serving Sensor data Internet commerc e SaaS, Web 2.0 Mobile platforms Financial trade NewSQL NoSQL Other OLAP data stores Analytic Datastore High Velocity High Volume Fonte: VoltDB
  • 45. 45 .:: Trabalhos Relacionados ::.  Storage: projetar sistemas apropriados para lidar com o crescente volume de dados de forma efetiva;  Management: questões relacionadas com a gestão dos dados. Como validar e selecionar? Ausência de padrões.  Processing: Como inspecionar, analisar dados não estruturados? Como extrair significado relevante para tomada de decisão. Algoritmos mais eficientes para grandes volumes de dados. Big Data: Issues and Challenges Moving Forward Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. Big Data: Issues and Challenges Moving Forward.System Sciences .46th Hawaii International Conference on (pp. 995-1004), 2013. http://dx.doi.org/10.1109/HICSS.2013.645
  • 46. 46 .:: Trabalhos Relacionados ::.  Associação do problema de processamento de Big Data com Cloud Computing, redução de custo e escalabilidade;  Considerações a respeito da arquitetura de nuvem e técnicas para distribuir tasks de processamento em Cloud;  Limitações de protocolos para transferência de dados;  Gestão de dados na nuvem, melhorias baseadas nos dados, segurança e privacidade;  Desenvolvimento com foco em sistemas de consultas em tempo real;  Adoção de SQL em Big Data; State of Big Data Analysis in the Cloud AHUJA, Sanjay P, MOORE, Bryan. State of Big Data Analysis in the Cloud. Network and Communication Technologies, Vol. 2, No. 1, June 2013. DOI: 10.5539/nct.v2n1p62
  • 47. 47 .:: Conclusão ::.  Muitos desafios a serem superados;  Empresas ainda não sabem utilizar os recurso de Big Data;  Faltam profissionais capacitados para lidar com Big Data;  Ainda é um terreno desconhecido para profissionais de TI;  É difícil extrair informações relevantes do Big Data;  Não há métricas bem definidas para mensurar ROI;  Faltam padrões;  Ferramentas disponíveis ainda exigem conhecimento técnico avançado e pouco difundido;