Trabalho sobre Big Data apresentado na disciplina Tópicos Especiais de TI no curso de Sistemas de Informação do IFAL. Fala sobre algumas definições que auxiliaram no surgimento do que hoje chamamos de Big Data, além de falar sobre a ferramenta SPLUNK
2. SUMÁRIO
•
História dos dados;
•
Pensamento Computacional;
•
Data Warehouse e Data Mining;
•
Dados Estruturados e Dados Não-Estruturados;
•
Big Data;
• NoSQL;
• MapReduce;
•
SPLUNK;
BIGDATA
2
3. HISTÓRIA DOS DADOS
•
Dados são essenciais;
•
Empresas armazenavam dados em fichas de papel (arquivos físicos);
•
Extrair informações e manter esses arquivos organizado era uma tarefa muito
custosa;
•
O acesso à informação dependia da localização geográfica dos arquivos;
BIGDATA
3
4. HISTÓRIA DOS DADOS
•
Esses arquivos físicos evoluíram para arquivos digitais;
•
Porém os arquivos digitais eram ainda uma versão melhorada dos arquivos
físicos;
BIGDATA
4
5. HISTÓRIA DOS DADOS
•
Porém apenas armazenar não resolvia o problema, era necessário que os
dados se relacionassem;
BIGDATA
5
6. PENSAMENTO COMPUTACIONAL
•
Jeannete M. Wing em 2006, “o pensamento computacional é habilidade
fundamental para qualquer pessoa, não somente para cientistas da
computação.”
•
É escolher uma representação apropriada para um problema ou modelagem de
aspectos relevantes de um problema para fazê-lo tratável;
•
Pensar computacionalmente é pensar recursivamente.
BIGDATA
6
7. DATA WAREHOUSE E DATA MINING
•
Hoje em dia, as grandes empresas detêm um volume enorme de dados e esses
estão em diversos sistemas diferentes espalhados por ela.
•
Com isso surgiram dois grandes pilares da análise e armazenamento de dados.
BIGDATA
7
8. DATA WAREHOUSE E DATA MINING
•
Um Data Warehouse (ou armazém de dados, ou depósito de dados no Brasil) é
um sistema de computação utilizado para armazenar informações relativas às
atividades de uma organização em bancos de dados, de forma consolidada. O
Data Warehouse é:
•
Orientado a Assunto; Integrado; Não Volátil;
•
O data warehouse possibilita a análise de grandes volumes de dados
coletados dos sistemas transacionais (OLTP).
•
O Data Warehouse não é:
•
BIGDATA
Produto; Linguagem; Cópia do sistema OLTP;
8
9. DATA WAREHOUSE E DATA MINING
•
A Mineração de Dados é uma das tecnologias mais promissoras da atualidade.
•
O KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento
nas Bases de Dados) é uma tentativa de solucionar o problema causado pela
chamada "era da informação": a sobrecarga de dados.
•
O KDD refere-se a todo o processo de descoberta de conhecimento, e a
Mineração de Dados a uma das atividades do processo.
BIGDATA
9
10. DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
•
Segundo a IBM 90% de todos os dados do mundo foram gerados nos últimos 2
anos.
BIGDATA
10
11. DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
DADOS ESTRUTURADOS
•
Dados organizados em blocos semânticos (relações);
•
Dados de um mesmo grupo possuem as mesmas descrições (atributos);
•
Descrições para todas as classes de um grupo possuem o mesmo formato
(esquema);
•
Dados mantidos em um SGBD são chamados de Dados Estruturados por
manterem a mesma estrutura de representação (rígida), previamente projetada
(esquema).
BIGDATA
11
12. DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
DADOS NÃO ESTRUTURADOS
•
São os dados que não possuem uma estrutura definida.;
•
Normalmente caracterizados por documentos textos, imagens, vídeos, etc;
•
Nem as estruturas são descritas implicitamente;
•
Grande maioria dos dados atuais na Web e nas empresas seguem este
formato.
BIGDATA
12
13. DADOS ESTRUTURADOS E NÃO
ESTRUTURADOS
DADOS SEMIESTRUTURADOS
•
Atualmente, muitos dados não são mantidos no SGBD;
•
Dados Web, por exemplo, apresentam uma organização bastante heterogênea;
•
A alta heterogeneidade dificulta as consultas a estes dados;
•
Assim, estes dados são classificados como semiestruturados:
•
•
•
Não são estritamente tipados;
Não são complementarmente não-estruturados.
Exemplos:
•
XML – eXtensible Markup Language
•
RDF – Resource Description Framework
•
OWL – Web Ontology Language
BIGDATA
13
14. DADOS ESTRUTURADOS E DADOS NÃO
ESTRUTURADOS
Dados Estruturados
Dados Semiestruturados
Dados Não Estruturados
Esquema pré-definido
Nem sempre há um esquema
Não há esquema
Estrutura regular
Estrutura irregular
Estrutura irregular
Estrutura independente dos
dados
Estrutura embutida nos dados
Pode não ter estrutura alguma
Estrutura reduzida
Estrutura extensa
(particularidades de cada dado,
visto que cada um pode ter uma
organização própria)
Estrutura extensa
(particularidades de cada dado,
visto que cada um pode ter uma
organização própria)
Fracamente evolutiva
Fortemente evolutiva (estrutura
modifica-se com frequência)
Fortemente evolutiva (estrutura
modifica-se com frequência)
Prescritiva (esquemas fechados
e restrições de integridade)
Estrutura descritiva
Estrutura descritiva
Distinção entre estrutura e dados Distinção entre estrutura e dados Distinção entre estrutura e dados
é clara
não é clara
não é clara
BIGDATA
14
17. BIGDATA
VOLUME DE DADOS
•
No ano 2000, eram armazenados no mundo
•
•
800.000 Petabytes (PB)
IBM: Expectativa para 2020
•
BIGDATA
35 Zetabytes (ZB)
17
20. BIGDATA
•
O termo Big Data é bem amplo e ainda não existe um consenso comum em sua
definição.
•
Porém, Big Data pode ser resumidamente definido como o processamento
(eficiente e escalável) analítico de grande volumes de dados complexos
produzidos por (várias) aplicações.
BIGDATA
20
21. BIGDATA
•
Exemplos de aplicações no contexto Big Data varia bastante, como aplicações
científicas e de engenharias, redes sociais, redes de sensores, dados de Web
Click, dados médicos e biológicos, transações de comércio eletrônico e
financeiros, entre inúmeras outras.
BIGDATA
21
22. BIGDATA
•
Estima-se que diariamente são gerados 15 petabytes de informações (redes
sociais, dispositivos móveis, financeiras) em todo o mundo, provenientes de
diversas plataformas e sistemas.
•
Como prova disso temos os exemplos de Facebook e Twitter que sozinhos geram
diariamente 10 e 7
•
terabytes de dados, respectivamente.
Em uma outra vertente temos os dados gerados nas pesquisas astronômicas que
armazenaram cerca de 140 terabytes de informações só em 2010, e que com o
desenvolvimento de novos telescópios até 2016 essa quantidade de informações
poderá ser gerada a cada cinco dias.
BIGDATA
22
23. BIGDATA
•
É ideal:
• Analisar dados semiestruturados e não estruturados de uma variedade de
fontes;
• Quando todos os dados ou quase todos devem ser analisados;
• Para analises interativas e exploratórias;
•
Big Data releva as formalidades e restrições do Data Warehouse;
•
Preserva a fidelidade dos dados.
BIGDATA
23
24. BIGDATA
•
Basicamente, podemos resumir as características do contexto Big Data em
quatro propriedades:
• (1) dados na ordem de dezenas ou centenas de Terabytes (podendo chegar a
ordem de Petabytes);
• (2) poder de crescimento elástico;
• (3) distribuição do processamento dos dados;
• (4) tipos de dados variados, complexos e/ou semiestruturados.
•
Recentemente, ambientes de computação em nuvem (cloud computing) têm sido
utilizados para o gerenciamento de dados em forma de Big Data, enfocando
principalmente em duas tecnologias: Bases de Dados Como Serviço (Database as
a Service (DaaS)) e Infraestrutura Como Serviço (Infrastructure as a service
(IaaS)).
BIGDATA
24
25. BIGDATA
NoSQL
•
Uma das tendências para solucionar os diversos problemas e desafios gerados pelo
contexto Big Data é o movimento denominado NoSQL (Not only SQL). NoSQL
promove diversas soluções inovadoras de armazenamento e processamento de
grande volume de dados.
BIGDATA
25
26. BIGDATA
NoSQL
•
SGBD tradicionais:
• Fortemente baseado no controle transacional ACID (Atomicity, Consistency,
Isolation e Durability).
•
NoSQL utilizam:
• O paradigma BASE (Basically Available, Soft-state, Eventually
consistency).
• O teorema CAP (Consistency, Availability e Partition tolerance) mostra que
somente duas dessas 3 propriedades podem ser garantidas simultaneamente
em um ambiente de processamento distribuído de grande porte.
• Dentro do aspecto do processamento dos dados, o principal paradigma adotado
pelos produtos NoSQL é o MapReduce.
BIGDATA
26
27. BIGDATA
MapReduce
•
Divide o processamento em duas etapas:
• (1) Map, que mapeia e distribui os dados em diversos nós de processamento e
armazenamento;
• (2) Reduce, que agrega e processa os resultados parciais para gerar um
resultado final (ou intermediário para outro processo MapReduce).
•
Provavelmente uma das maiores vantagens deste paradigma é a sua simplicidade,
onde a manipulação dos dados é feita pelo uso de duas funções básicas: Map
(função de mapeamento) e Reduce (função de redução).
•
Foi introduzido pela Google em 2004.
BIGDATA
27
28. BIGDATA
MapReduce
•
A Figura ilustra o paradigma MapReduce para contar palavras em um arquivo
grande de texto, onde os dados são distribuídos e armazenados utilizando como
pares < key, value >.
BIGDATA
28
29. BIGDATA
NoSQL
•
Os produtos NoSQL possuem várias características comuns entre si, porém se
diferenciam quanto ao modelo de dados utilizados (i.e., os produtos são
classificados pela representação dos dados). Atualmente, os principais produtos
NoSQL disponíveis, são organizados segundo seu modelo de dados a seguir:
•
Baseado em Coluna (Column Stores): Hbase, Cassandra, Hypertable, Accumulo, Amazon
SimpleDB, Cloudata, Cloudera, SciDB, HPCC, Stratosphere;
•
Baseado emDocumentos (Document Stores): MongoDB, CouchDB, BigCouch, RavenDB,
Clusterpoint Server, ThruDB, TerraStore, RaptorDB, JasDB, SisoDB, SDB, SchemaFreeDB, djondb;
•
Baseado em Grafos (Graph-Based Stores): Neo4J, Infinite Graph, Sones, InfoGrid, HyperGraphDB,
DEX, Trinity, AllegroGraph, BrightStarDB, BigData, Meronymy, OpenLink Virtuoso, VertexDB,
FlockDB;
•
Baseado em Chave-Valor (Key-Value Stores): Dynamo, Azure Table Storage, Couchbase Server,
Riak, Redis, LevelDB, Chordless, GenieDB, Scalaris, Tokyo Cabinet/Tyrant, GT.M, Scalien,
Berkeley DB, Voldemort, Dynomite, KAI, MemcacheDB, Faircom C-Tree, HamsterDB, STSdb,
Tarantool/Box, Maxtable, Pincaster, RaptorDB, TIBCO Active Spaces, allegro-C, nessDB, HyperDex,
Mnesia, LightCloud, Hibari, BangDB.
BIGDATA
29
31. SPLUNK
•
O que é o SPLUNK?
•
O SPLUNK é o mecanismo para os dados gerados por máquina
• Sua infraestrutura de TI gera enormes quantidades de dados. Dados gerados
por máquina - gerados por sites, aplicativos, servidores, redes, dispositivos
móveis e afins. Ao monitorar e analisar tudo, de clickstreams e transações de
clientes à atividade de rede para registrar chamadas.
BIGDATA
31
32. SPLUNK
•
Projetado para BigData
•
O dimensionamento de sua arquitetura se baseia no MapReduce; portanto,
conforme os volumes diários e as fontes de dados crescem, você pode dimensionar
o desempenho, simplesmente adicionando mais servidores comuns.
BIGDATA
32
39. REFERÊNCIAS BIBLIOGRÁFICAS
•
A história dos bancos de dados. Disponível em: http://www.dicasdeprogramacao.com.br/a-historia-dos-bancosde-dados/ Acesso em: 18/06/2013.
•
LIMA JUNIOR, W. T. Jornalismo Computacional em função da Era do Big Data. 9º. Encontro Nacional de
Pesquisadores em Jornalismo, Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro. Novembro de 2011.
•
OLIVEIRA, M. Data Warehouse. Disponível em:
http://www.datawarehouse.inf.br/Academicos/A%20PUBLICAR_DATA_WAREHOUSE_MARCELL_OLIVEIRA.pdf
Acesso em: 19/06/2013.
•
CAMILO, C. O. SILVA, J. C. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Instituto de
Informática, Universidade Federal de Goiás. 2009.
•
CLARO, D. B. Dados Estruturados x Dados Semiestruturados x Dados Não Estruturados. Disponível em:
http://homes.dcc.ufba.br/~dclaro/download/mate04/DadosEstruturadosxSemiEstruturadosxNaoEstruturados.pdf
Acesso em: 19/06/2013.
•
VIEIRA, M. R. FIGUEIREDO, J. M. LIBERATTI, G. VIEBRANTZ, A. F. M. Bancos de Dados NoSQL: Conceitos,
Ferramentas, Linguagens e Estudos de Casos no Contexto de Big Data. Simpósio Brasileiro de Bancos de
Dados - SBBD 2012.
•
SOUZA, M. Introdução Splunk Brasil. Disponível em: http://www.slideshare.net/mtelless/introduo-splunk-brasil
Acesso em: 24/06/2013.
BIGDATA
39