SlideShare une entreprise Scribd logo
1  sur  38
Télécharger pour lire hors ligne
Big Data 
A nova ciência dos dados 
Christiano Anderson 
anderson@propus.com.br
Quem sou? 
● Desenvolvedor e arquiteto de dados, trabalha com 
grandes volumes de acesso e informação desde o 
início da internet comercial no Brasil; 
● Participou da criação do primeiro e-mail gratuito 
do Brasil: Zipmail; 
● Contribui com diversos projetos de Software Livre; 
● Palestra sobre arquitetura de dados nos principais 
eventos de tecnologia;
Big Data? 
Big data se trata de um conceito onde o foco é 
grande armazenamento de dados e maior 
velocidades.
Os 5 V's 
1. Velocidade 
2. Volume 
3. Variedade 
4. Veracidade 
5. Valor
Velocidade 
Em muitos casos, as respostas precisam ser 
rápidas, praticamente em tempo real para o 
tratamento de um volume massivo de dados; 
Para um sistema anti-fraude, 2 minutos pode 
ser muito tempo.
Volume 
Empresas podem facilmente produzir GB e 
mais GB de informações por dia. 
O Twitter pode facilmente produzir diariamente 
alguns TB de informações pertinentes para 
análise de sentimento;
Variedade 
São informações de diversas fontes, como 
imagens, tuites e outros resultados de redes 
sociais, textos, etc. Os dados não seguem uma 
modelagem padrão;
Veracidade 
A maioria dos gestores não confiam 100% nas 
informações que recebem para tomada de 
Decisões; 
Ao organizar as informações e usar filtros 
apropriados, é possível aumentar a 
confiabilidade dos dados;
Valor 
Depois que os dados são tratados e filtrados, 
podem representar um valor inestimável para 
empresa, seja para tomada de decisões ou 
definições de novos produtos;
Como funciona? 
Big data é capaz de capturar, armazenar e 
processar um massivo volume de informações 
que podem ser espalhados em diversos 
hardware de commodity; 
Uma vez capturado, os dados podem ser 
processados através de dezenas de ferramentas;
Exemplos de uso 
● Decodificar o genoma humano demorava cerca de 10 anos; 
atualmente, pode ser processado em uma fração desse tempo 
com big data; 
● Walmart processa milhões de transações de clientes por dia, com 
big data, consegue identificar padrões de fraudes quase que 
imediatamente; 
● FICO (inclui sistema de deteção de fraudes em cartão de crédito) 
consegue processar mais de 2 bilhões de transações por dia;
A nova ciência dos dados
Quantos bytes diários de informação eram 
Produzidos em 1980?
E em 1990?
E em 2000?
E nos dias atuais? 
Quantos bytes produzimos em toda nossa vida?
Nos últimos anos, produzimos mais dados que 
toda história da humanidade
Já imaginou que a maioria dos dispositivos 
eletrônicos já possuem um endereço de IP? 
Quando você opera esse dispositivo, alguma 
informação é gerada. 
Isso vai ficar gravado em algum lugar. 
O mundo possui aproximadamente 7 bilhões de 
pessoas.
Estamos gerando informação o 
tempo todo 
● Utilizando avião 
● Pagando contas 
online 
● Comprando pela 
internet 
● Acessando redes 
sociais 
● Assistindo TV (sim, 
SmartTV) 
● Consultando um 
médico 
● Realizando ligações 
telefônicas 
● Até quando 
morremos
Arquitetura 
● Inúmeros sistemas legados; 
● Falta de padronização dos dados; 
● Cada produto tem um objetivo e guarda os 
dados no seu formato; 
● Dificuldade de um produto “conversar” com 
outro;
Arquitetura 
● Quando existe a necessidade de buscar 
informações de diversas fontes, geralmente o 
trabalho é manual; 
● Alguém centraliza as informações de diferentes 
ferramentas fazendo um “copy & paste”; 
● Trabalho é lento, pode ter falha humana;
Arquitetura 
● Soluções de Big Data podem automatizar esse 
trabalho... 
● … Não apenas automatizar, mas colocar 
inteligência... 
● … Identificar novos padrões... 
● … Aumentar a precisão das informações … 
● … Fazer o gestor enxergar novas 
possibilidades.
Algumas tecnologias de Big Data 
● Hadoop 
● Pig 
● Hive 
● Hbase 
● Storm 
● Solr 
● Ambari 
● Zookeeper, etc...
O cientista de dados precisa entender como as 
informações estão armazenadas e escolher as 
melhores ferramentas para atingir o objetivo final
Hadoop 
● Um framework que fornece uma maneira 
simples e escalável para processos distribuídos 
em diversos servidores; 
● Hadoop é open source e inclui diversas 
ferramentas, como sistema de arquivos 
distribuído e Map/Reduce.
Big data Analytics 
Informações em diversos formatos: Como 
as informações não precisam seguir uma 
modelagem, nenhuma informação é perdida; 
Escalável: Hadoop já provou ser muito 
escalável, Facebook e Yahoo! são dois 
cases de sucesso; 
Novas descobertas: Pela flexibilidade em 
cruzar informações, é simples conseguir 
novos insights, algo complicado quando está 
preso a uma modelagem;
Escalabilidade 
A maioria das aplicações apresentam 
dificuldade para escalar ou exigem 
configurações complexas. O Hadoop escala 
facilmente, usando hardware comum, sem 
nenhuma necessidade de configurações 
complexas.
Alta Disponibilidade 
O fato de ter sistema de arquivos distribuído, 
(HDFS) onde os dados não estão restritos em 
apenas um servidor, já faz o sistema com alta 
disponibilidade.
Empresas que investiram em 
Hadoop 
● 1. Yahoo! - grande investidora de Hadoop; 
● 2. Facebook - Utiliza para cruzar informações da rede 
social 
● 3. Twitter - Utiliza para cruzar informações da rede 
social; 
● 4. Adobe - Utiliza em seus sistemas de publicação 
online; 
● 5. e-Bay - Utiliza para identificar tendências de 
compras;
Quem adota Big Data? 
● Empresas de saúde 
● Portais de serviço 
● Redes Sociais 
● Empresas financeiras 
● Mineradoras 
● Empresas de Segurança Pública
Casos de sucesso
Muito obrigado! 
Christiano Anderson 
anderson@propus.com.br

Contenu connexe

Tendances

Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus ImpactosAlex Silva
 
Internet das Coisas - Conceitos, tecnologias e aplicações
Internet das Coisas - Conceitos, tecnologias e aplicaçõesInternet das Coisas - Conceitos, tecnologias e aplicações
Internet das Coisas - Conceitos, tecnologias e aplicaçõesFabio Souza
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoDaniel Brandão
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dadosvini_campos
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)Marco Garcia
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )Marco Garcia
 
Plano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoPlano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoHelio Rebouças
 
Indústria 4.0 - A era do conhecimento
Indústria 4.0 - A era do conhecimentoIndústria 4.0 - A era do conhecimento
Indústria 4.0 - A era do conhecimentoThiago Fortunato
 
A Internet das Coisas
A Internet das CoisasA Internet das Coisas
A Internet das CoisasLuiz Avila
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBItiaquarius
 
Inteligência Artificial
Inteligência ArtificialInteligência Artificial
Inteligência ArtificialAmanda Nalesso
 
Introdução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceIntrodução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceEmerson Henrique
 
Internet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redorInternet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redorAndré Curvello
 

Tendances (20)

Big Data e Seus Impactos
Big Data e Seus ImpactosBig Data e Seus Impactos
Big Data e Seus Impactos
 
Internet das Coisas - Conceitos, tecnologias e aplicações
Internet das Coisas - Conceitos, tecnologias e aplicaçõesInternet das Coisas - Conceitos, tecnologias e aplicações
Internet das Coisas - Conceitos, tecnologias e aplicações
 
Aula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de InformaçãoAula 01 - Introdução ao Sistema de Informação
Aula 01 - Introdução ao Sistema de Informação
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dados
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )
 
Big Data
Big DataBig Data
Big Data
 
Plano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da InformaçãoPlano Diretor de Tecnologia da Informação
Plano Diretor de Tecnologia da Informação
 
Indústria 4.0 - A era do conhecimento
Indústria 4.0 - A era do conhecimentoIndústria 4.0 - A era do conhecimento
Indústria 4.0 - A era do conhecimento
 
A Internet das Coisas
A Internet das CoisasA Internet das Coisas
A Internet das Coisas
 
Aula - Metodologias Ágeis
Aula - Metodologias ÁgeisAula - Metodologias Ágeis
Aula - Metodologias Ágeis
 
Indústria 4.0 Tecnologia e inovação
Indústria 4.0 Tecnologia e inovaçãoIndústria 4.0 Tecnologia e inovação
Indústria 4.0 Tecnologia e inovação
 
Estratégia e TI
Estratégia e TIEstratégia e TI
Estratégia e TI
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBI
 
Inteligência Artificial
Inteligência ArtificialInteligência Artificial
Inteligência Artificial
 
Introdução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceIntrodução aos conceitos de Business Intelligence
Introdução aos conceitos de Business Intelligence
 
Internet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redorInternet das Coisas - Conectando você e tudo ao seu redor
Internet das Coisas - Conectando você e tudo ao seu redor
 

En vedette

Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Big Data
Big DataBig Data
Big DataNGDATA
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...Diego Nogare
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
UFF Tech 2013 - Big Data - Rafael Borges EMC
UFF Tech 2013 - Big Data - Rafael Borges EMCUFF Tech 2013 - Big Data - Rafael Borges EMC
UFF Tech 2013 - Big Data - Rafael Borges EMCSti Uff
 
Social BPM: Aplicando Tecnologias Sociais ao Ciclo de BPM
Social BPM: Aplicando Tecnologias Sociais ao Ciclo de BPMSocial BPM: Aplicando Tecnologias Sociais ao Ciclo de BPM
Social BPM: Aplicando Tecnologias Sociais ao Ciclo de BPMAndrea Magalhães Magdaleno
 
Social BPM: Processos de Negócio, Colaboração e Tecnologia Social
Social BPM: Processos de Negócio, Colaboração e Tecnologia SocialSocial BPM: Processos de Negócio, Colaboração e Tecnologia Social
Social BPM: Processos de Negócio, Colaboração e Tecnologia SocialAndrea Magalhães Magdaleno
 
Computação quântica
Computação quânticaComputação quântica
Computação quânticadieotavio
 
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava JatoPesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava JatoIdeia Inteligência
 
Afinal o que é Big data?
Afinal o que é Big data?Afinal o que é Big data?
Afinal o que é Big data?Cezar Taurion
 
Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Marco Garcia
 
Introdução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceIntrodução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceLeandro Guerra
 
Computação quântica
Computação quânticaComputação quântica
Computação quânticaRodrigo Werle
 

En vedette (20)

Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Big Data
Big DataBig Data
Big Data
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
Big Data
Big DataBig Data
Big Data
 
Big data apresentacao
Big data apresentacaoBig data apresentacao
Big data apresentacao
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
Mini-Curso: Introdução à Big Data e Data Science - Aula 2 - Onde usamos Big D...
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
What is Big Data?
What is Big Data?What is Big Data?
What is Big Data?
 
UFF Tech 2013 - Big Data - Rafael Borges EMC
UFF Tech 2013 - Big Data - Rafael Borges EMCUFF Tech 2013 - Big Data - Rafael Borges EMC
UFF Tech 2013 - Big Data - Rafael Borges EMC
 
Social BPM: Aplicando Tecnologias Sociais ao Ciclo de BPM
Social BPM: Aplicando Tecnologias Sociais ao Ciclo de BPMSocial BPM: Aplicando Tecnologias Sociais ao Ciclo de BPM
Social BPM: Aplicando Tecnologias Sociais ao Ciclo de BPM
 
Social BPM: Processos de Negócio, Colaboração e Tecnologia Social
Social BPM: Processos de Negócio, Colaboração e Tecnologia SocialSocial BPM: Processos de Negócio, Colaboração e Tecnologia Social
Social BPM: Processos de Negócio, Colaboração e Tecnologia Social
 
Computação quântica
Computação quânticaComputação quântica
Computação quântica
 
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava JatoPesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
 
Afinal o que é Big data?
Afinal o que é Big data?Afinal o que é Big data?
Afinal o que é Big data?
 
Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é Big Data - Artigo, Conceito, o Que é
Big Data - Artigo, Conceito, o Que é
 
Computadores Quânticos
Computadores QuânticosComputadores Quânticos
Computadores Quânticos
 
Introdução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceIntrodução - Big Data e Business Intelligence
Introdução - Big Data e Business Intelligence
 
Palestra gc
Palestra gcPalestra gc
Palestra gc
 
Computação quântica
Computação quânticaComputação quântica
Computação quântica
 

Similaire à Big Data - Conceitos Básicos

Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2alexculpado
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 
AULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdfAULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdfMaraLuizaGonalvesFre
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 

Similaire à Big Data - Conceitos Básicos (20)

Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
BigData
BigDataBigData
BigData
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Bigdata alexandre v2
Bigdata alexandre v2Bigdata alexandre v2
Bigdata alexandre v2
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
AULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdfAULA 11 - FUNDAMENTOS DE BIG DATA.pdf
AULA 11 - FUNDAMENTOS DE BIG DATA.pdf
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Big data
Big dataBig data
Big data
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 

Plus de Christiano Anderson

MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16Christiano Anderson
 
Mapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjangoMapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjangoChristiano Anderson
 
MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014Christiano Anderson
 
Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014Christiano Anderson
 
MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014Christiano Anderson
 
Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Christiano Anderson
 
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERIGeo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERIChristiano Anderson
 
MongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saberMongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saberChristiano Anderson
 
Utilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentesUtilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentesChristiano Anderson
 
Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7Christiano Anderson
 

Plus de Christiano Anderson (20)

Meetup MUG-RS KingHost
Meetup MUG-RS KingHostMeetup MUG-RS KingHost
Meetup MUG-RS KingHost
 
certificadoTDC2016Floripa
certificadoTDC2016FloripacertificadoTDC2016Floripa
certificadoTDC2016Floripa
 
MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16MongoDB - Tudo o que você precisa saber - FISL16
MongoDB - Tudo o que você precisa saber - FISL16
 
Mapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjangoMapeando a Terra com soluções livres e GeoDjango
Mapeando a Terra com soluções livres e GeoDjango
 
MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014MongoDB - Tudo que você precisa saber - FGSL 2014
MongoDB - Tudo que você precisa saber - FGSL 2014
 
Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014Grafos - Uma abordagem divertida - Latinoware 2014
Grafos - Uma abordagem divertida - Latinoware 2014
 
MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014MongoDB Schema Design - Latinoware 2014
MongoDB Schema Design - Latinoware 2014
 
Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15Persistência Poliglota, Big Data e NoSQL FISL 15
Persistência Poliglota, Big Data e NoSQL FISL 15
 
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERIGeo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
Geo Django - Fórum Goiano de Software Livre - 10 FGSL e 1 ERI
 
MongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saberMongoDB - Tudo o que você precisa saber
MongoDB - Tudo o que você precisa saber
 
Django - Muito além do básico
Django - Muito além do básicoDjango - Muito além do básico
Django - Muito além do básico
 
GeoDjango
GeoDjangoGeoDjango
GeoDjango
 
Palestra nosql
Palestra nosqlPalestra nosql
Palestra nosql
 
Scrum
ScrumScrum
Scrum
 
Utilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentesUtilizando NoSQL no desenvolvimento de soluções inteligentes
Utilizando NoSQL no desenvolvimento de soluções inteligentes
 
MongoDB na Campus Party
MongoDB na Campus PartyMongoDB na Campus Party
MongoDB na Campus Party
 
Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7Django e MongoDB - Python Brasil 7
Django e MongoDB - Python Brasil 7
 
Python MongoDB no MongoSP
Python MongoDB no MongoSPPython MongoDB no MongoSP
Python MongoDB no MongoSP
 
Python e MongoDB - Ensol
Python e MongoDB - EnsolPython e MongoDB - Ensol
Python e MongoDB - Ensol
 
Python and MongoDB
Python and MongoDBPython and MongoDB
Python and MongoDB
 

Big Data - Conceitos Básicos

  • 1. Big Data A nova ciência dos dados Christiano Anderson anderson@propus.com.br
  • 2. Quem sou? ● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informação desde o início da internet comercial no Brasil; ● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail; ● Contribui com diversos projetos de Software Livre; ● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;
  • 3. Big Data? Big data se trata de um conceito onde o foco é grande armazenamento de dados e maior velocidades.
  • 4. Os 5 V's 1. Velocidade 2. Volume 3. Variedade 4. Veracidade 5. Valor
  • 5. Velocidade Em muitos casos, as respostas precisam ser rápidas, praticamente em tempo real para o tratamento de um volume massivo de dados; Para um sistema anti-fraude, 2 minutos pode ser muito tempo.
  • 6. Volume Empresas podem facilmente produzir GB e mais GB de informações por dia. O Twitter pode facilmente produzir diariamente alguns TB de informações pertinentes para análise de sentimento;
  • 7. Variedade São informações de diversas fontes, como imagens, tuites e outros resultados de redes sociais, textos, etc. Os dados não seguem uma modelagem padrão;
  • 8. Veracidade A maioria dos gestores não confiam 100% nas informações que recebem para tomada de Decisões; Ao organizar as informações e usar filtros apropriados, é possível aumentar a confiabilidade dos dados;
  • 9. Valor Depois que os dados são tratados e filtrados, podem representar um valor inestimável para empresa, seja para tomada de decisões ou definições de novos produtos;
  • 10. Como funciona? Big data é capaz de capturar, armazenar e processar um massivo volume de informações que podem ser espalhados em diversos hardware de commodity; Uma vez capturado, os dados podem ser processados através de dezenas de ferramentas;
  • 11. Exemplos de uso ● Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma fração desse tempo com big data; ● Walmart processa milhões de transações de clientes por dia, com big data, consegue identificar padrões de fraudes quase que imediatamente; ● FICO (inclui sistema de deteção de fraudes em cartão de crédito) consegue processar mais de 2 bilhões de transações por dia;
  • 12. A nova ciência dos dados
  • 13. Quantos bytes diários de informação eram Produzidos em 1980?
  • 16. E nos dias atuais? Quantos bytes produzimos em toda nossa vida?
  • 17. Nos últimos anos, produzimos mais dados que toda história da humanidade
  • 18.
  • 19. Já imaginou que a maioria dos dispositivos eletrônicos já possuem um endereço de IP? Quando você opera esse dispositivo, alguma informação é gerada. Isso vai ficar gravado em algum lugar. O mundo possui aproximadamente 7 bilhões de pessoas.
  • 20. Estamos gerando informação o tempo todo ● Utilizando avião ● Pagando contas online ● Comprando pela internet ● Acessando redes sociais ● Assistindo TV (sim, SmartTV) ● Consultando um médico ● Realizando ligações telefônicas ● Até quando morremos
  • 21. Arquitetura ● Inúmeros sistemas legados; ● Falta de padronização dos dados; ● Cada produto tem um objetivo e guarda os dados no seu formato; ● Dificuldade de um produto “conversar” com outro;
  • 22. Arquitetura ● Quando existe a necessidade de buscar informações de diversas fontes, geralmente o trabalho é manual; ● Alguém centraliza as informações de diferentes ferramentas fazendo um “copy & paste”; ● Trabalho é lento, pode ter falha humana;
  • 23. Arquitetura ● Soluções de Big Data podem automatizar esse trabalho... ● … Não apenas automatizar, mas colocar inteligência... ● … Identificar novos padrões... ● … Aumentar a precisão das informações … ● … Fazer o gestor enxergar novas possibilidades.
  • 24.
  • 25. Algumas tecnologias de Big Data ● Hadoop ● Pig ● Hive ● Hbase ● Storm ● Solr ● Ambari ● Zookeeper, etc...
  • 26.
  • 27. O cientista de dados precisa entender como as informações estão armazenadas e escolher as melhores ferramentas para atingir o objetivo final
  • 28. Hadoop ● Um framework que fornece uma maneira simples e escalável para processos distribuídos em diversos servidores; ● Hadoop é open source e inclui diversas ferramentas, como sistema de arquivos distribuído e Map/Reduce.
  • 29. Big data Analytics Informações em diversos formatos: Como as informações não precisam seguir uma modelagem, nenhuma informação é perdida; Escalável: Hadoop já provou ser muito escalável, Facebook e Yahoo! são dois cases de sucesso; Novas descobertas: Pela flexibilidade em cruzar informações, é simples conseguir novos insights, algo complicado quando está preso a uma modelagem;
  • 30. Escalabilidade A maioria das aplicações apresentam dificuldade para escalar ou exigem configurações complexas. O Hadoop escala facilmente, usando hardware comum, sem nenhuma necessidade de configurações complexas.
  • 31. Alta Disponibilidade O fato de ter sistema de arquivos distribuído, (HDFS) onde os dados não estão restritos em apenas um servidor, já faz o sistema com alta disponibilidade.
  • 32. Empresas que investiram em Hadoop ● 1. Yahoo! - grande investidora de Hadoop; ● 2. Facebook - Utiliza para cruzar informações da rede social ● 3. Twitter - Utiliza para cruzar informações da rede social; ● 4. Adobe - Utiliza em seus sistemas de publicação online; ● 5. e-Bay - Utiliza para identificar tendências de compras;
  • 33. Quem adota Big Data? ● Empresas de saúde ● Portais de serviço ● Redes Sociais ● Empresas financeiras ● Mineradoras ● Empresas de Segurança Pública
  • 35.
  • 36.
  • 37.
  • 38. Muito obrigado! Christiano Anderson anderson@propus.com.br