SlideShare uma empresa Scribd logo
1 de 42
Big Data 
A nova ciência dos dados 
Latinoware 2014 
Christiano Anderson 
anderson@propus.com.br 
Twitter: @dump 
Blog: http://christiano.me
Quem sou? 
● Desenvolvedor e arquiteto de dados, trabalha com 
grandes volumes de acesso e informação desde o 
início da internet comercial no Brasil; 
● Participou da criação do primeiro e-mail gratuito 
do Brasil: Zipmail; 
● Contribui com diversos projetos de Software Livre; 
● Palestra sobre arquitetura de dados nos principais 
eventos de tecnologia;
Big Data? 
Big data se trata de um conceito onde o foco é 
grande armazenamento de dados e maior 
velocidades.
Os 5 V's 
1. Velocidade 
2. Volume 
3. Variedade 
4. Veracidade 
5. Valor
Velocidade 
Em muitos casos, as respostas precisam ser 
rápidas, praticamente em tempo real para o 
tratamento de um volume massivo de dados; 
Para um sistema anti-fraude, 2 minutos pode 
ser muito tempo.
Volume 
Empresas podem facilmente produzir GB e 
mais GB de informações por dia. 
O Twitter pode facilmente produzir diariamente 
alguns TB de informações pertinentes para 
análise de sentimento;
Variedade 
São informações de diversas fontes, como 
imagens, tuites e outros resultados de redes 
sociais, textos, etc. Os dados não seguem uma 
modelagem padrão;
Veracidade 
A maioria dos gestores não confiam 100% nas 
informações que recebem para tomada de 
Decisões; 
Ao organizar as informações e usar filtros 
apropriados, é possível aumentar a 
confiabilidade dos dados;
Valor 
Depois que os dados são tratados e filtrados, 
podem representar um valor inestimável para 
empresa, seja para tomada de decisões ou 
definições de novos produtos;
Como funciona? 
Big data é capaz de capturar, armazenar e 
processar um massivo volume de informações 
que podem ser espalhados em diversos 
hardware de commodity; 
Uma vez capturado, os dados podem ser 
processados através de dezenas de ferramentas;
Exemplos de uso 
● Decodificar o genoma humano demorava cerca de 10 anos; 
atualmente, pode ser processado em uma fração desse tempo 
com big data; 
● Walmart processa milhões de transações de clientes por dia, com 
big data, consegue identificar padrões de fraudes quase que 
imediatamente; 
● FICO (inclui sistema de deteção de fraudes em cartão de crédito) 
consegue processar mais de 2 bilhões de transações por dia;
A nova ciência dos dados
Quantos bytes diários de informação eram 
Produzidos em 1980?
E em 1990?
E em 2000?
E nos dias atuais? 
Quantos bytes produzimos em toda nossa vida?
Nos últimos anos, produzimos mais dados que 
toda história da humanidade
Já imaginou que a maioria dos dispositivos 
eletrônicos já possuem um endereço de IP? 
Quando você opera esse dispositivo, alguma 
informação é gerada. 
Isso vai ficar gravado em algum lugar. 
O mundo possui aproximadamente 7 bilhões de 
pessoas.
Estamos gerando informação o 
tempo todo 
● Utilizando avião 
● Pagando contas 
online 
● Comprando pela 
internet 
● Acessando redes 
sociais 
● Assistindo TV (sim, 
SmartTV) 
● Consultando um 
médico 
● Realizando ligações 
telefônicas 
● Até quando 
morremos
Arquitetura 
● Inúmeros sistemas legados; 
● Falta de padronização dos dados; 
● Cada produto tem um objetivo e guarda os 
dados no seu formato; 
● Dificuldade de um produto “conversar” com 
outro;
Arquitetura 
● Quando existe a necessidade de buscar 
informações de diversas fontes, geralmente o 
trabalho é manual; 
● Alguém centraliza as informações de diferentes 
ferramentas fazendo um “copy & paste”; 
● Trabalho é lento, pode ter falha humana;
Arquitetura 
● Soluções de Big Data podem automatizar esse 
trabalho... 
● … Não apenas automatizar, mas colocar 
inteligência... 
● … Identificar novos padrões... 
● … Aumentar a precisão das informações … 
● … Fazer o gestor enxergar novas 
possibilidades.
Algumas tecnologias de Big Data 
● Hadoop 
● Pig 
● Hive 
● Hbase 
● Storm 
● Solr 
● Ambari 
● Zookeeper, etc...
O cientista de dados precisa entender como as 
informações estão armazenadas e escolher as 
melhores ferramentas para atingir o objetivo final
Hadoop 
● Um framework que fornece uma maneira 
simples e escalável para processos distribuídos 
em diversos servidores; 
● Hadoop é open source e inclui diversas 
ferramentas, como sistema de arquivos 
distribuído e Map/Reduce.
Big data Analytics 
Informações em diversos formatos: Como 
as informações não precisam seguir uma 
modelagem, nenhuma informação é perdida; 
Escalável: Hadoop já provou ser muito 
escalável, Facebook e Yahoo! são dois 
cases de sucesso; 
Novas descobertas: Pela flexibilidade em 
cruzar informações, é simples conseguir 
novos insights, algo complicado quando está 
preso a uma modelagem;
Escalabilidade 
A maioria das aplicações apresentam 
dificuldade para escalar ou exigem 
configurações complexas. O Hadoop escala 
facilmente, usando hardware comum, sem 
nenhuma necessidade de configurações 
complexas.
Alta Disponibilidade 
O fato de ter sistema de arquivos distribuído, 
(HDFS) onde os dados não estão restritos em 
apenas um servidor, já faz o sistema com alta 
disponibilidade.
Empresas que investiram em 
Hadoop 
● 1. Yahoo! - grande investidora de Hadoop; 
● 2. Facebook - Utiliza para cruzar informações da rede 
social 
● 3. Twitter - Utiliza para cruzar informações da rede 
social; 
● 4. Adobe - Utiliza em seus sistemas de publicação 
online; 
● 5. e-Bay - Utiliza para identificar tendências de 
compras;
Quem adota Big Data? 
● Empresas de saúde 
● Portais de serviço 
● Redes Sociais 
● Empresas financeiras 
● Mineradoras 
● Empresas de Segurança Pública
Por onde começar?
Hortonworks Sandbox 
● Baixe a máquina virtual da HortonWorks 
Sandbox; 
● Possui uma distribuição Hadoop completa para 
começar a testar; 
● Siga os tutoriais 
● http://br.hortonworks.com/products/hortonworks-sandbox/
O que aprender primeiro? 
● Importar massa de dados para o HDFS; 
● Utilizar uma lingagem como Pig ou Hive para 
trabalhar esses dados; 
● Compreender os componentes básicos; 
● Utilizar técnicas mais avançadas, como Map 
Reduce puro para trabalhar os dados; 
● Desenvolver soluções integradas ao Hadoop;
Hortonworks Sandbox
Casos de sucesso
Muito obrigado! 
Christiano Anderson 
Twitter: @dump 
anderson@propus.com.br

Mais conteúdo relacionado

Mais procurados

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big DataHélio Silva
 

Mais procurados (20)

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 
Big Data
Big DataBig Data
Big Data
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big Data
 

Semelhante a Big Data Latinoware 2014

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 
AULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdfAULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdfMaraLuizaGonalvesFre
 
Sistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOTSistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOTGustavo Ferreira Palma
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Apresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeApresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeMisaelFalco
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 

Semelhante a Big Data Latinoware 2014 (20)

Big Data
Big DataBig Data
Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Big Data
Big DataBig Data
Big Data
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
BigData
BigDataBigData
BigData
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
AULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdfAULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdf
 
Big data
Big dataBig data
Big data
 
Sistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOTSistemas Embarcados Software Livre e IOT
Sistemas Embarcados Software Livre e IOT
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Apresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de SergipeApresentação de Seminário - Universidade Federal de Sergipe
Apresentação de Seminário - Universidade Federal de Sergipe
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 

Mais de Christiano Anderson

MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16Christiano Anderson
 
Mapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjangoMapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjangoChristiano Anderson
 
MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014Christiano Anderson
 
Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014Christiano Anderson
 
MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014Christiano Anderson
 
Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Christiano Anderson
 
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERIGeo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERIChristiano Anderson
 
MongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saberMongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saberChristiano Anderson
 
Utilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentesUtilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentesChristiano Anderson
 
Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7Christiano Anderson
 

Mais de Christiano Anderson (20)

Meetup MUG-RS KingHost
Meetup MUG-RS KingHostMeetup MUG-RS KingHost
Meetup MUG-RS KingHost
 
certificadoTDC2016Floripa
certificadoTDC2016FloripacertificadoTDC2016Floripa
certificadoTDC2016Floripa
 
MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16
 
Mapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjangoMapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjango
 
MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014
 
Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014
 
MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014
 
Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15
 
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERIGeo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
 
MongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saberMongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saber
 
Django - Muito além do básico
Django - Muito além do básicoDjango - Muito além do básico
Django - Muito além do básico
 
GeoDjango
GeoDjangoGeoDjango
GeoDjango
 
Palestra nosql
Palestra nosqlPalestra nosql
Palestra nosql
 
Scrum
ScrumScrum
Scrum
 
Utilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentesUtilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentes
 
MongoDB na Campus Party
MongoDB na Campus PartyMongoDB na Campus Party
MongoDB na Campus Party
 
Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7
 
Python MongoDB no MongoSP
Python MongoDB no MongoSPPython MongoDB no MongoSP
Python MongoDB no MongoSP
 
Python e MongoDB - Ensol
Python e MongoDB - EnsolPython e MongoDB - Ensol
Python e MongoDB - Ensol
 
Python and MongoDB
Python and MongoDBPython and MongoDB
Python and MongoDB
 

Big Data Latinoware 2014

  • 1. Big Data A nova ciência dos dados Latinoware 2014 Christiano Anderson anderson@propus.com.br Twitter: @dump Blog: http://christiano.me
  • 2. Quem sou? ● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informação desde o início da internet comercial no Brasil; ● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail; ● Contribui com diversos projetos de Software Livre; ● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;
  • 3. Big Data? Big data se trata de um conceito onde o foco é grande armazenamento de dados e maior velocidades.
  • 4. Os 5 V's 1. Velocidade 2. Volume 3. Variedade 4. Veracidade 5. Valor
  • 5. Velocidade Em muitos casos, as respostas precisam ser rápidas, praticamente em tempo real para o tratamento de um volume massivo de dados; Para um sistema anti-fraude, 2 minutos pode ser muito tempo.
  • 6. Volume Empresas podem facilmente produzir GB e mais GB de informações por dia. O Twitter pode facilmente produzir diariamente alguns TB de informações pertinentes para análise de sentimento;
  • 7. Variedade São informações de diversas fontes, como imagens, tuites e outros resultados de redes sociais, textos, etc. Os dados não seguem uma modelagem padrão;
  • 8. Veracidade A maioria dos gestores não confiam 100% nas informações que recebem para tomada de Decisões; Ao organizar as informações e usar filtros apropriados, é possível aumentar a confiabilidade dos dados;
  • 9. Valor Depois que os dados são tratados e filtrados, podem representar um valor inestimável para empresa, seja para tomada de decisões ou definições de novos produtos;
  • 10. Como funciona? Big data é capaz de capturar, armazenar e processar um massivo volume de informações que podem ser espalhados em diversos hardware de commodity; Uma vez capturado, os dados podem ser processados através de dezenas de ferramentas;
  • 11. Exemplos de uso ● Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma fração desse tempo com big data; ● Walmart processa milhões de transações de clientes por dia, com big data, consegue identificar padrões de fraudes quase que imediatamente; ● FICO (inclui sistema de deteção de fraudes em cartão de crédito) consegue processar mais de 2 bilhões de transações por dia;
  • 12. A nova ciência dos dados
  • 13. Quantos bytes diários de informação eram Produzidos em 1980?
  • 16. E nos dias atuais? Quantos bytes produzimos em toda nossa vida?
  • 17. Nos últimos anos, produzimos mais dados que toda história da humanidade
  • 18.
  • 19. Já imaginou que a maioria dos dispositivos eletrônicos já possuem um endereço de IP? Quando você opera esse dispositivo, alguma informação é gerada. Isso vai ficar gravado em algum lugar. O mundo possui aproximadamente 7 bilhões de pessoas.
  • 20. Estamos gerando informação o tempo todo ● Utilizando avião ● Pagando contas online ● Comprando pela internet ● Acessando redes sociais ● Assistindo TV (sim, SmartTV) ● Consultando um médico ● Realizando ligações telefônicas ● Até quando morremos
  • 21. Arquitetura ● Inúmeros sistemas legados; ● Falta de padronização dos dados; ● Cada produto tem um objetivo e guarda os dados no seu formato; ● Dificuldade de um produto “conversar” com outro;
  • 22. Arquitetura ● Quando existe a necessidade de buscar informações de diversas fontes, geralmente o trabalho é manual; ● Alguém centraliza as informações de diferentes ferramentas fazendo um “copy & paste”; ● Trabalho é lento, pode ter falha humana;
  • 23. Arquitetura ● Soluções de Big Data podem automatizar esse trabalho... ● … Não apenas automatizar, mas colocar inteligência... ● … Identificar novos padrões... ● … Aumentar a precisão das informações … ● … Fazer o gestor enxergar novas possibilidades.
  • 24.
  • 25. Algumas tecnologias de Big Data ● Hadoop ● Pig ● Hive ● Hbase ● Storm ● Solr ● Ambari ● Zookeeper, etc...
  • 26.
  • 27. O cientista de dados precisa entender como as informações estão armazenadas e escolher as melhores ferramentas para atingir o objetivo final
  • 28. Hadoop ● Um framework que fornece uma maneira simples e escalável para processos distribuídos em diversos servidores; ● Hadoop é open source e inclui diversas ferramentas, como sistema de arquivos distribuído e Map/Reduce.
  • 29. Big data Analytics Informações em diversos formatos: Como as informações não precisam seguir uma modelagem, nenhuma informação é perdida; Escalável: Hadoop já provou ser muito escalável, Facebook e Yahoo! são dois cases de sucesso; Novas descobertas: Pela flexibilidade em cruzar informações, é simples conseguir novos insights, algo complicado quando está preso a uma modelagem;
  • 30. Escalabilidade A maioria das aplicações apresentam dificuldade para escalar ou exigem configurações complexas. O Hadoop escala facilmente, usando hardware comum, sem nenhuma necessidade de configurações complexas.
  • 31. Alta Disponibilidade O fato de ter sistema de arquivos distribuído, (HDFS) onde os dados não estão restritos em apenas um servidor, já faz o sistema com alta disponibilidade.
  • 32. Empresas que investiram em Hadoop ● 1. Yahoo! - grande investidora de Hadoop; ● 2. Facebook - Utiliza para cruzar informações da rede social ● 3. Twitter - Utiliza para cruzar informações da rede social; ● 4. Adobe - Utiliza em seus sistemas de publicação online; ● 5. e-Bay - Utiliza para identificar tendências de compras;
  • 33. Quem adota Big Data? ● Empresas de saúde ● Portais de serviço ● Redes Sociais ● Empresas financeiras ● Mineradoras ● Empresas de Segurança Pública
  • 35. Hortonworks Sandbox ● Baixe a máquina virtual da HortonWorks Sandbox; ● Possui uma distribuição Hadoop completa para começar a testar; ● Siga os tutoriais ● http://br.hortonworks.com/products/hortonworks-sandbox/
  • 36. O que aprender primeiro? ● Importar massa de dados para o HDFS; ● Utilizar uma lingagem como Pig ou Hive para trabalhar esses dados; ● Compreender os componentes básicos; ● Utilizar técnicas mais avançadas, como Map Reduce puro para trabalhar os dados; ● Desenvolver soluções integradas ao Hadoop;
  • 39.
  • 40.
  • 41.
  • 42. Muito obrigado! Christiano Anderson Twitter: @dump anderson@propus.com.br