O documento discute o Big Data, definindo-o como conjuntos de dados cujo tamanho ultrapassa a capacidade de processamento dos sistemas de banco de dados convencionais. Aborda as características do Big Data incluindo volume, variedade e velocidade de dados, além de discutir aplicações em diversas áreas como meteorologia, genômica e pesquisas na Internet. Também apresenta desafios e oportunidades do Big Data para empresas.
1. Artigo Científico apresentado à Faculdade de Tecnologia da Zona Sul – Fatec-
ZS como exigência parcial para a obtenção do título de Tecnólogo em
Informática para Gestão de Negócios.
Orientador: Prof. Alex Macedo de Araujo.
2. “Big Data são dados que excedem a capacidade de
processamento dos sistemas de banco de dados
convencionais.”
3. Um problema de memória em escala global.
Formação de um fenômeno
Internet das coisas
A web dos dados
Cientistas medindo o infinito
4. Formação de um fenômeno
Atualmente somam-se a
esses dados estruturados
informações disponíveis
nos meios digitais. A
internet, a melhor fonte de
dados, é quase
incompreensivelmente
grande. Os usuários criam
o conteúdo como
postagens de blog, tweets,
interações em redes
sociais, fotos e vídeos.
Servidores registram
continuamente logs sobre
suas ações online.
registro de eventos
relevantes num sistema
computacional
5.
6.
7.
8.
9. Internet das coisas
O termo foi cunhado em 1999 por Kevin Ashton
para descrever um futuro onde quase tudo
poderia se tornar rastreável através de uma
etiqueta de RFID aplicada. Hoje, quando se fala
sobre a "internet das coisas", se descreve a
proliferação de dispositivos conectados à
internet e sensores interligados a que
atualmente conhecemos como internet.
10. A web dos dados
A Web 3.0, anunciada como a terceira onda da
Internet, projeta estruturar todo o conteúdo
disponível na rede mundial de computadores
dentro dos conceitos de “compreensão das
máquinas” e "semântica das redes”.
11. Cientistas medindo o infinito
A metodologia científica exige a exaustiva
repetição de testes e medições para
comprovação das teorias e evolução nas
pesquisas. A computação acompanha a
ciência intrinsecamente para executar o
processamento de tarefas repetitivas.
Descodificar o genoma humano
originalmente levou 10 anos para o
processo, agora pode ser conseguido em
uma semana.
12. Justificativa
Compreender o fenômeno e sua conseqüência no setor de
TI
Metodologia
Investigação indutiva sobre o tema
Dados acadêmicos dirigidos a questões técnicas
Fontes de pesquisa no mercado de TI
Objetivo
Tecer parâmetros para estratégia futuras na camada de
negócios
13. Atualmente...
...são criadas mais informações em dois dias do que a civilização gerou
desde seu início até o ano de 2003 (Schmidt, 2010). O ano de 2012 está
sendo marcado pela explosão do mercado de análise de Big Data.
Empresas como a Gartner e IBM já observavam em 2011 que o Big Data
era uma tecnologia emergente.
14. Um problema de memória em escala global.
Big Data é uma denominação nova para um problema antigo, que adquiriu
proporções maiores e que exige redobrada atenção. A possibilidade de
colapso dos sistemas de tecnologia de informação exigiu um salto
tecnológico na maneira de manipular dados que exercem grande
influência sobre os diversos aspectos da vida humana: ciência, política,
economia, sociedade e comportamento e qualquer área que necessite ser
alimentada com dados para processamento.
15. Big Data é um termo aplicado a conjuntos de dados cujo tamanho é além
da capacidade de ferramentas de software usadas para capturar, gerenciar
e processar os dados dentro de um tempo tolerável decorrido. Estão
configurados em grandes formatos de dados e em constante movimento
atualmente e variando de algumas dezenas de terabytes a petabytes de
muitos dados em um único conjunto de dados.
Nos próximos dez anos, só os dados digitais deverão crescer 44 vezes. Em
2020, haverá 4 bilhões de pessoas on-line criando 50 trilhões de gigabytes
de dados. " (HP Intelligent Research - ed. May 15 - 2012)
16. Características
Até aonde (em tamanho dados): O quê está sendo analisado:
Os limites atuais são da Os cientistas frequentemente vem
ordem de: deparam-se com este cenário em:
• Petabytes
• Exabytes • Meteorologia
• Zettabytes • Genômica
• Conectônomia
• Simulações de físicas complexas
• Pesquisas biológicas e
ambientais
• Pesquisas na Internet, finanças
• Informática empresarial.
17. Tipo de dados e como lhe dar com eles
Uma das chaves para extrair dados não estruturados como áudio, vídeo,
imagens, eventos, tweets, wikis, fóruns e blogs, e transformá-los em
informações valiosas é criar um modelo de dados semântico a partir de uma
camada que fica em cima do armazenamento de dados.
“Temos de reunir os dados a partir de diferentes fontes e dar sentido a eles. O modo
pelo qual fizemos isso e a forma que a indústria tem feito, é realizar extrações dos
dados a partir de lugares diferentes e construir um repositório, depois, produzir
relatórios fora desse repositório. É um processo que consome tempo e não é uma
questão extremamente flexível.”
18. Tecnologias
As tecnologias que estão sendo aplicados aos dados incluem:
• Processamento Paralelo Massivo
(Massively Parallel Processing, MPP);
• Redes de prospecção de dados;
• Sistemas de arquivos distribuídos;
• Bancos de dados distribuídos;
• Plataformas de computação em nuvem;
• Internet;
• Sistemas de armazenamento escaláveis.
21. Os cinco “Vs”
Em termos técnicos poderíamos definir o Big Data por cinco termos que
denominamos por “3 Vs” ( Velocidade, volume e variedade). Porém, em
algumas teses veem se acrescentando mais dois “Vs” (Veracidade e valor).
22. Onde e como aplicar
Atualidade - A massificação do Big Data, no entanto, ainda enfrenta
obstáculos. O maior deles, como não poderia deixar de ser quando o
assunto é dados, é a preocupação quanto à privacidade. Se a
recomendação de links patrocinados pelo Google já parece invasiva à
maioria das pessoas, o mundo e a legislação atuais não estão preparados
para as possibilidades que o Big Data oferece de agregar e tirar conclusões
de dados até então esparsos.
Fazer um balanço dos dados - Quase todas as organizações têm a
possibilidade de acesso a um fluxo equilibrado de dados não estruturados,
sejam eles dirigidos às redes sociais ou gerados a partir de sensores que
monitoram os andares de uma fábrica, por exemplo. Mas produzir uma
enxurrada de informação não significa que é imperativo salvar e manusear
cada byte gerado.
23. Primeiros negócios
Muitas das oportunidades de Big Data começaram em áreas fora da TI: os
departamentos de marketing são exemplo. Eles têm buscado no fenômeno
uma forma de obter mais conhecimento sobre as necessidades dos clientes
e identificar tendências de compras por meio das redes sociais.
1. Reavaliar as estruturas - Big Data exige grandes mudanças na
infraestrutura de servidores e armazenamento na maioria das empresas.
2. Estruturar os dados – O mundo do Big Data vem com uma longa lista
de novas siglas e tecnologias que provavelmente nunca estiveram antes na
mira dos CIOs.
3. Prepare sua equipe - A maioria das empresas de TI conta com apenas o
talento necessário para dar os passos seguinte com Big Data. Por isso, as
capacidades analíticas são as mais cruciais e as que mais faltam às equipes
de TI.
24. Analisando o Big Data Analytics
Big Data Analytics é uma prática que cresce rápida e influentemente. Para
descobrir quantas organizações e usuários realmente o fazem, foi
formulada uma pesquisa que perguntou aos entrevistados:
"A sua organização executa análise avançada de dados contra grandes
volumes hoje?”
25. 1. CDO - Chief Data Officer é o diretor corporativo responsável por todo o
processamento e mineração de dados de uma empresa.
2. Cientista de dados - Um novo campo foi criado em 2001, quando o
termo "ciência de dados" foi usado pela primeira vez em um artigo pelo
estatístico William Cleveland, Data Science: Um Plano de Acção para a
Expansão das Áreas Técnicas do Campo de Estatística .
26. 1. Montando o Quebra Cabeça - Desde a época do boca a boca e do
comércio baseado na produção artesanal, o relacionamento interpessoal
entre cliente e produtor passou por diversas fases evolutivas. Transitamos
da indiferença e do foco exclusivo na produção e na capitalização à
descoberta de certo controle proporcionado pela informatização dos
sistemas, como os de atendimento aos clientes ou Call Center/URA, de
Relacionamento com os clientes CRM, de Inteligência de negócios BI e,
por fim, a unificação de todas essas bases de conhecimento em um
sistema ou ERP.
27. 2. “O Perde e Ganha” do Social Big Data - Empresas de variados portes
se aproveitam atualmente do intenso movimento social e tecnológico para
ampliar bases de seguidores e fãs, unindo listagens de milhares e até
milhões de clientes.
Cada um desses clientes mantém grande quantidade de dados pessoais, de
relacionamento, de atividades e de hábitos de consumo disponíveis de
forma pública. Porém, esses dados estão extremamente desestruturados e
dispostos em muitas redes sociais diferentes.
As empresas que conquistaram essas bases, hoje as utilizam apenas para
manter um relacionamento através de conteúdos nos canais sociais, sem
beneficiarem-se dessa riqueza de informações.
28. Como consideramos os dados, ao invés de lógica de negócios, como
entidade primária em um programa, é preciso criar ou redescobrir o idioma
que nos permite concentrar os dados, ao invés de abstrações. Em outras
palavras:
Escrever programas mais curtos que tornam claro o que estamos
fazendo com os dados.
Essas abstrações por sua vez se prestam para a criação de melhores
ferramentas para não-programadores.
Melhor suporte a interatividade. Se o Hadoop tem alguma fraqueza, é a
natureza orientada por lotes de computação. A natureza ágil da ciência de
dados irá favorecer qualquer ferramenta que permita mais interatividade.