O documento discute os principais desafios do Big Data, incluindo volume, velocidade e variedade de dados, além de veracidade, valor e desafios arquiteturais e de implementação. É destacado que a variedade, e não o volume, será o maior desafio em 2015 e que a extração de valor é crucial para obter vantagem competitiva.
3. Big Data
O que é?
Teve inicio no fim dos anos 90, com as empresas de
internet tentando gerenciar volumes de informação sem
precedentes.
Big Data é um termo que descreve sistemas com alto:
• Volume de informação
• Velocidade na ingestão de informação
• Variedade de dados
Demanda formas inovadoras de processar informação, a
um custo efetivo, que possibilitem visão profunda, tomada
de decisão e automação de processos.
“Big data não trata de petabytes, mas de computação
complexa.”
4. Big Data
O que é?
Se você é um desenvolvedor, até agora tudo bem com os
“três V” do Big Data – código de aplicação cuida de
volume, velocidade e variedade.
... Mas se você é um cientista de dados, nada disso cuida
do significado da informação. Então, são necessários mais
“dois V”, talvez:
• Veracidade da informação
• Valor que a informação agrega ao negócio
Em 2015, 85% das organizações na lista das 500 da
Fortune não serão capazes de explorar Big Data para
vantagem competitiva.
5. Volume
O Volume está sempre crescendo
Possuir mais informação significa possuir melhores
modelos.
Grandes volumes de informação são, de imediato, o maior
desafio para as estruturas convencionais de TI, o que
demanda por armazenamento altamente escalável e
consultas distribuídas.
As tecnologias mais utilizadas para armazenamento e
processamento de informações são Hadoop e MapReduce.
Constantemente o volume de informação criada excede o
limite da capacidade do seu storage (abordagem
seletiva).
6. Velocidade
Processamento em tempo real
A primeira geração de soluções para big data eram focadas
principalmente na captura e análise de informações batch.
Fast data se concentra em reduzir o intervalo de tempo
entre dados que chegam e o valor a ser extraído desses
dados.
Equilibra vários tradeoffs para entregar:
1. Confiabilidade na ingestão de dados;
2. Flexibilidade no armazenamento e consultas;
3. Ferramentas sofisticadas para analytics.
Big data foi ontem. Fast data é agora.
7. Variedade
Estrutura da informação
Soluções de Big Data irão armazenar informações
estruturadas, semiestruturadas, e não estruturadas. Por
exemplo documentos de texto, multimídia, etc.
Modelar e preparar informações de diferentes fontes de
sistemas para obter “visões” tem sido, por décadas, um
trabalho demorado e tedioso.
A maioria das organizações passam de 70% à 80% do tempo
modelando, em vez de interagir com com a informação
para produzir visões de negócio.
“Variedade, e não volume, será o maior desafio de Big
Data em 2015.”
8. Veracidade
In Data We Trust
Refere-se à vieses, ruído e anormalidade nos dados.
A correção da informação e eliminação de ruídos deve ser
feita, de preferência, na fonte de coleta.
Assim que os usuários começam a explorar as informações,
eles se tornam verdadeiramente engajados e mais
dispostos a investir em esforços para “limpar” os dados.
Veracidade não é apenas sobre a qualidade dos dados,
mas também sobre a compreensão dos dados.
9. Valor
Desafio de agregar valor
Lacuna entre habilidade e tecnologia para usar a
informação.
Enquanto 75% dos líderes de negócio acreditam que estão
extraindo máximo de seus dados. Na realidade, apenas 4%,
de fato, tem colhido frutos relevantes dessas iniciativas.
De forma geral, 43% das empresas indicaram que “obtém
pequenos benefícios tangíveis das informações”, enquanto
23% afirmam que não colhem benefício algum.
A estratégia em torno da utilização dos dados é o
principal recurso para uma organização obter vantagem
competitiva nos mercados onde atua.
10. Desafios arquiteturais
Arquitetura Lambda
Arquitetura para processamento de dados
genérica, escalável e tolerante à falhas.
Toda informação que entra no sistema é
despachada para ambas camadas batch e
online.
Camada batch: armazena toda a informação
(imutável) e pré computa visões para a camada
de servidão.
Camada online: compensa a alta latência de
atualizações, tratando apenas de informações
recentes.
11. Desafios de implementação
Os desafios continuam...
Inúmeras iniciativas para o
desenvolvimento de novas soluções.
Projetos open source ainda conduzem
o desenvolvimento de big data.
Empresas que vendem soluções de big
data ainda proveem suporte e
funcionalidades proprietárias.
Open source ou solução proprietária?
12. Segurança
Segurança de informação
Falhas de segurança são extremamente prejudiciais para o
negócio.
Segurança em big data não é fundamentalmente diferente
de segurança para sistemas tradicionais.
Os desafios surgem devido à:
1. Complexidade do ambiente;
2. Diferentes fontes de informação (coletada, agregada e
analisada);
3. Tecnologias aplicadas para sustentar a solução.
Nenhuma corrente é mais forte que seu elo mais fraco.
“Analistas fazem hype; Desenvolvedores fazem software.”
“O quão grande é o BigData” é uma pergunta clichê mas ajuda a colocar desenvolvedores, analistas e usuários na mesma página.
Viscosidade: Termo usado para descrever a latência ou lag dos dados em relação aos eventos sendo descritos.
Viralidade: Definido por alguns utilizadores, como a velocidade à qual se espalha os dados; quantas vezes ele é pego e repetido por outros usuários ou eventos.
Map Reduce tem mais de 10 anos. A Google o aposentou em 2014.
LHC produz 15 PB por segundo e armazena apenas 35 PB por ano.
Yahoo possui o maior cluster hadoop com 500 PB em 40.000 servidores.
Volatilidade: Por quanto tempo a informação é valida.
Desafios de volume e performance.
Tecnologias mais quentes são Kafka, Spark e Cassandra.
Tem a ver com ingestão de informação.
É um problema cada vez mais caro e difícil de combater. Existe um trabalho futuro muito forte em automação para este cenário.
Não confundir com o conceito de variabilidade, que está ligado ao fluxo de informações altamente inconsistentes, com picos periódicos.
Vieses = análises tendenciosas. Ex.: Importação de limão mexicano reduz acidentes mortais nos EUA.
Quando não consegue compreender não extrai valor.
A imagem saiu na capa do The Economist, The Data Deluge (o dilúvio de informação).