SlideShare une entreprise Scribd logo
1  sur  55
Big Data, JVM e Redes Sociais
José Renato Pequeno
Zé Pequeno?
Objetivos
• Explosão de dados
• O que Big Data não é
• O que é Big Data?
• Por quê Big Data?
• Estudo de Caso
• Quais são as técnicas
e tecnologias que
envolvem Big Data?
• MapReduce (Hadoop)
• NoSQL (HBase)
• Machine Learning
(Mahout/OpenNLP)
• Experimento e
Resultados
• Conclusão
Mídias Sociais
Mídias Sociais
Mídias Sociais
Explosão de Dados
Fonte : http://www.thebigdatainsightgroup.com/site/article/big-data-infographic
Explosão de Dados
Explosão de Dados
Propaganda da IBM
Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
Explosão de Dados
Propaganda da IBM
Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
Explosão de Dados
Cena do Filme “Controle Absoluto”
Fonte : http://www.youtube.com/watch?v=QkQ5jjpvhU0
Explosão de Dados
Explosão de Dados
Explosão de Dados
O que Big Data não é!
• Um Produto.
• Uma plataforma.
• Uma solução.
• Algo tangível.
• Data Warehouse
• Business Inteligence
Estudo de Caso
Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes-
15012013-25.shl
Estudo de Caso
Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big-
data/#.U0yMC8eLdPo
Quais são as profissões, técnicas e
tecnologias que envolvem Big Data?
• Para extrair todas as possibilidades do big data, você precisa
aprimorar suas técnicas ou mesmo desenvolver novas
técnicas para conseguir desbloquear o potencial dos dados.
Hoje o potencial é superior ao que havia antes, pois os dados
em tempo real não estruturado é enorme.
• "Qualquer tolo pode saber... o ponto é entender”, Albert
Einstein.
• O ponto principal é entender, para PREVER. É disso que o
conhecimento se trata. Isso se chama Inteligência Preditiva.
Uma nova Profissão – Cientista de
Dados
Uma nova Profissão – Cientista de
Dados
Uma nova Profissão – Cientista de
Dados
Analista de Negócio
Profissional de TI
Profissional de TI
Profissional de TI
O Momento Big Data
Fonte:http://www.gartner.com/newsroom/id/2575515
Falta de Profissionais
Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de
4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos
poderá ser preenchido com as capacitações disponíveis hoje em dia.
Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a-
disseminacao-do-big-data-trara-para-o-mercado/
Brasil precisa formar profissionais para Big Data, diz Gartner
Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil
oportunidades serão geradas no País, prevê a consultoria.
Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar-
profissionais-para-big-data-diz-gartner/
Quais são as profissões, técnicas e
tecnologias que envolvem Big Data?
MapReduce
• Criado pela equipe do Google em 2004.
• Objetivo :
É uma técnica, que mapeia um problema e seus dados
associados, para um grande número de computadores
(paralelismo), estejam eles procurando por texto ou realizando
cálculos. Os sistemas retornam os resultados (MAP) e a
informação é, então, “reduzida” (Reduce) para as respostas que
quem definiu o problema estava procurando.
Hadoop
• Projeto Open Source
• Criado pela Yahoo em 2005
• Licenciado pela Apache
• É a combinação de dois projetos :
Hadoop MapReduce (HMR)
Hadoop Distributed File System (HDFS)
Hadoop
Apache Hadoop é um framework que permite o processamento
de grandes volumes de dados através de clusters. É um sistema
distribuído usando uma arquitetura Master-Slave armazenando
informações através do Hadoop Distributed File System (HDFS) e
implementa algoritmos de MapReduce.
Hadoop MapReduce (HMR)
• O HMR é a implementação do Hadoop do MapReduce,
software que Google usa para acelerar as pesquisas
endereçadas ao seu buscador.
Fonte :
https://developers.google.com/appengine/docs/python/dataprocessing/over
view
Hadoop MapReduce (HMR)
Hadoop MapReduce (HMR)
Hadoop MapReduce (HMR)
Hadoop Distributed File System (HDFS)
• O HDFS é um sistema de arquivos distribuídos otimizados para
atuar em dados não estruturados e é também baseado na
tecnologia do Google, neste caso o Google File System.
Eco Sistema Hadoop
Eco Sistema Hadoop
• Em torno do Hadoop, a comunidade Apache mantém diversos
projetos relacionados, como o Hbase, que é um banco de
dados NoSQL que trabalha em cima do HDFS.
• Utilizado pelo Facebook para suportar seu sistema de
mensagens e os seus serviços de informações analíticas em
tempo real.
• É um sistema de captura de dados e framework de análise
que trabalha com o Hadoop para processar e analisar grandes
volumes de logs. Possui um conjuntos de ferramentas para
visualizar e monitorar os dados capturados.
Fonte : http://incubator.apache.org/chukwa/
• É um sistema distribuído para capturar de forma eficiente,
agregar e mover grandes quantidades de dados de log de
diferentes origens (servidores) para um repositório central,
simplificando assim o processo de novas coletas dos dados
para posterior análise pelo Hadoop. Flume e Chukwa são
projetos parecidos, a principal diferença entre eles é que o
Chukwa é utilizado para processamento batch.
Fonte : http://flume.apache.org
• É um sistema de Data Warehouse para Hadoop que facilita a
agregação dos dados, queries e análise de grandes datasets
armazenados no Hadoop. Hive proporciona métodos de
consulta de dados com uma linguagem parecida com o SQL,
chamado de HiveQL. Possui interfaces JDBC/ODBC para
integração com ferramentas de BI.
Fonte : http://hive.apache.org/
• É um projeto que permite criar aprendizado automático e
data mining usando Hadoop. Através do Apache Mahout,
padrões podem ser descobertos através de grandes datasets.
Possui algoritmos de identificação e classificação.
Fonte : http://mahout.apache.org/
• É uma ferramenta utilizada para transferir de forma eficiente
grandes quantidades de dados entre o Hadoop e sistemas de
armazenamento de dados estruturados, como base de dados
relacionais.
• Permite importar tabelas individuais ou bases de dados entre
o HDFS.
• Gera classes Java que permitem manipular os dados
importados.
Fonte : http://sqoop.apache.org
• É um projeto Apache que proporciona uma infraestrutura
centralizada de serviços que permitem a sincronização dos
clusters.
Fonte : http://zookeeper.apache.org
• É uma ferramenta de desenvolvimento, permite que os
usuário de Hadoop se concentrem na análise dos dados e não
em desenvolvimento de programas MapReduce. A análise é
simplificada através de uma linguagem procedural de alto
nível.
Fonte :http://pig.apache.org/
Jaql
• É uma linguagem de consulta funcional e declarativa que
facilita a exploração de informações no forma JSON (Javascript
Object Notation) e arquivos semi-estruturado de texto.
Projeto iniciado na IBM, o Jaql permite fazer select, join,
group by e filtrar dados armazenados em HDFS.
Fonte :https://code.google.com/p/jaql/
• É um sistema de serialização de dados. Os projetos Hadoop
manipulam grande quantidade de dados e a serialização
destes dados tem que ser uma excelente performance. Esta
serialização pode ser de texto, json e em formato binário.
Com Avro podemos armazenar e ler dados facilmente através
de diferentes linguagens de programação.
Fonte :http://avro.apache.org
• Apache UIMA (Unstructured Information Management
Applications) É um framework para análise de grande volume
de dados não estruturados, como texto, vídeo, audio, etc,
obtendo conhecimento que pode ser relevante para uma
determinada situação.
Fonte :http://uima.apache.org/
O que é Big Data?
Segundo a Wikipedia:
“Big Data consiste em datasets que crescem em uma escala tão
grande e complexa que fica difícil de processar utilizando as
ferramentas de gerenciamento de banco de dados tradicionais.
As dificuldades incluem captura, armazenamento, busca,
compartilhamento, analise e visualização.”
O que é Big Data?
O que é Big Data?
O que é Big Data?
O que é Big Data?
Referências
• Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big
Data Problem Using Hadoop and Map Reduce.
• Kapil Bakshi (2012), Considerations for Big Data: Architecture and
Approach.
• Sachchidanand Singh(2012), Big Data Analytics.
• https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/
conhecendo_hadoop?lang=en
• http://manifestonaweb.wordpress.com/2009/06/02/entendendo-
mapreduce/
• http://mentablog.soliveirajr.com/2012/12/intro-to-parallel-
processing-with-mapreduce/
• http://static.googleusercontent.com/external_content/untrusted_dlcp/res
earch.google.com/en//archive/mapreduce-osdi04.pdf
• https://developers.google.com/appengine/docs/python/dataprocessing/o
verview#Determining_When_a_MapreducePipeline_Job_is_Complete

Contenu connexe

Tendances

Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasElaine Naomi
 
Formação em ciência de dados
Formação em ciência de dadosFormação em ciência de dados
Formação em ciência de dadosFernando Palma
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Inteligência Artificial, Internet das Coisas e Inovação.
Inteligência Artificial,  Internet das Coisas e Inovação. Inteligência Artificial,  Internet das Coisas e Inovação.
Inteligência Artificial, Internet das Coisas e Inovação. Fernando Novais da Silva
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
BIG DATA
BIG DATA BIG DATA
BIG DATA ABEP123
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angolaalexculpado
 

Tendances (20)

Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Big Data
Big DataBig Data
Big Data
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big data
Big dataBig data
Big data
 
Formação em ciência de dados
Formação em ciência de dadosFormação em ciência de dados
Formação em ciência de dados
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Inteligência Artificial, Internet das Coisas e Inovação.
Inteligência Artificial,  Internet das Coisas e Inovação. Inteligência Artificial,  Internet das Coisas e Inovação.
Inteligência Artificial, Internet das Coisas e Inovação.
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
BIG DATA
BIG DATA BIG DATA
BIG DATA
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - AngolaAula Magna Sobre BI & BigData na UNIA, Luanda - Angola
Aula Magna Sobre BI & BigData na UNIA, Luanda - Angola
 
Big Data - uma visão executiva
Big Data - uma visão executivaBig Data - uma visão executiva
Big Data - uma visão executiva
 
O que é Data Science?
O que é Data Science?O que é Data Science?
O que é Data Science?
 

En vedette

Processamento Automático da Língua Portuguesa: DevInSampa 2011
Processamento Automático da Língua Portuguesa: DevInSampa 2011Processamento Automático da Língua Portuguesa: DevInSampa 2011
Processamento Automático da Língua Portuguesa: DevInSampa 2011William Colen
 
Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6William Colen
 
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisFalando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisWilliam Colen
 
Mini-curso Processamento de linguagens naturais: pondo em prática
Mini-curso Processamento de linguagens naturais: pondo em prática Mini-curso Processamento de linguagens naturais: pondo em prática
Mini-curso Processamento de linguagens naturais: pondo em prática William Colen
 
BIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana AndradeBIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana Andradebibliocampsp
 
Cidades Inteligentes e Big Data
Cidades Inteligentes e Big DataCidades Inteligentes e Big Data
Cidades Inteligentes e Big DataDiego Lusa
 
Mongo db no mundo real slides
Mongo db no mundo real   slidesMongo db no mundo real   slides
Mongo db no mundo real slidesSuissa
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelCarlos Barbieri
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosDan S. Reznik, PhD
 
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoasComo o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoasRafael da Silva
 
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big DataPsicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big DataLuciana Manfroi
 
TDC2016POA | Trilha IoT - Desenvolvendo Coisas Colaborativas
TDC2016POA | Trilha IoT -  Desenvolvendo Coisas ColaborativasTDC2016POA | Trilha IoT -  Desenvolvendo Coisas Colaborativas
TDC2016POA | Trilha IoT - Desenvolvendo Coisas Colaborativastdc-globalcode
 
TDC2016POA | Trilha IoT - IoT Surfboard: o que aprendemos com o primeiro pro...
TDC2016POA | Trilha IoT -  IoT Surfboard: o que aprendemos com o primeiro pro...TDC2016POA | Trilha IoT -  IoT Surfboard: o que aprendemos com o primeiro pro...
TDC2016POA | Trilha IoT - IoT Surfboard: o que aprendemos com o primeiro pro...tdc-globalcode
 
TDC2016POA | Trilha IoT - Iot no Mercado Publicitário
TDC2016POA | Trilha IoT - Iot no Mercado PublicitárioTDC2016POA | Trilha IoT - Iot no Mercado Publicitário
TDC2016POA | Trilha IoT - Iot no Mercado Publicitáriotdc-globalcode
 
TDC2016POA | Trilha Java - Introdução ao Byteman
TDC2016POA | Trilha Java - Introdução ao BytemanTDC2016POA | Trilha Java - Introdução ao Byteman
TDC2016POA | Trilha Java - Introdução ao Bytemantdc-globalcode
 

En vedette (20)

Processamento Automático da Língua Portuguesa: DevInSampa 2011
Processamento Automático da Língua Portuguesa: DevInSampa 2011Processamento Automático da Língua Portuguesa: DevInSampa 2011
Processamento Automático da Língua Portuguesa: DevInSampa 2011
 
Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6
 
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuaisFalando com a máquina: Desenvolvimento de assistentes pessoais virtuais
Falando com a máquina: Desenvolvimento de assistentes pessoais virtuais
 
Mini-curso Processamento de linguagens naturais: pondo em prática
Mini-curso Processamento de linguagens naturais: pondo em prática Mini-curso Processamento de linguagens naturais: pondo em prática
Mini-curso Processamento de linguagens naturais: pondo em prática
 
Tutorial em Processamento de Linguagem Natural
Tutorial em Processamento de Linguagem NaturalTutorial em Processamento de Linguagem Natural
Tutorial em Processamento de Linguagem Natural
 
BIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana AndradeBIG DATA, de Fabiana Andrade
BIG DATA, de Fabiana Andrade
 
Cidades Inteligentes e Big Data
Cidades Inteligentes e Big DataCidades Inteligentes e Big Data
Cidades Inteligentes e Big Data
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Mongo db no mundo real slides
Mongo db no mundo real   slidesMongo db no mundo real   slides
Mongo db no mundo real slides
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy ModelBig Data e Governança de Dados, via DMM-Data Management Maturiy Model
Big Data e Governança de Dados, via DMM-Data Management Maturiy Model
 
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de DadosBig Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
Big Data, Analytics, Aplicações, Aspectos Práticos e o Cientista de Dados
 
Big data apresentacao
Big data apresentacaoBig data apresentacao
Big data apresentacao
 
TDC 2015 - Torne-se um programador melhor
TDC 2015 - Torne-se um  programador melhorTDC 2015 - Torne-se um  programador melhor
TDC 2015 - Torne-se um programador melhor
 
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoasComo o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
Como o Big Data pode tornar a publicidade mais relevante entre marcas e pessoas
 
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big DataPsicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
Psicologia e Comportamento nas Redes Sociais: da Web 1.0 à Big Data
 
TDC2016POA | Trilha IoT - Desenvolvendo Coisas Colaborativas
TDC2016POA | Trilha IoT -  Desenvolvendo Coisas ColaborativasTDC2016POA | Trilha IoT -  Desenvolvendo Coisas Colaborativas
TDC2016POA | Trilha IoT - Desenvolvendo Coisas Colaborativas
 
TDC2016POA | Trilha IoT - IoT Surfboard: o que aprendemos com o primeiro pro...
TDC2016POA | Trilha IoT -  IoT Surfboard: o que aprendemos com o primeiro pro...TDC2016POA | Trilha IoT -  IoT Surfboard: o que aprendemos com o primeiro pro...
TDC2016POA | Trilha IoT - IoT Surfboard: o que aprendemos com o primeiro pro...
 
TDC2016POA | Trilha IoT - Iot no Mercado Publicitário
TDC2016POA | Trilha IoT - Iot no Mercado PublicitárioTDC2016POA | Trilha IoT - Iot no Mercado Publicitário
TDC2016POA | Trilha IoT - Iot no Mercado Publicitário
 
TDC2016POA | Trilha Java - Introdução ao Byteman
TDC2016POA | Trilha Java - Introdução ao BytemanTDC2016POA | Trilha Java - Introdução ao Byteman
TDC2016POA | Trilha Java - Introdução ao Byteman
 

Similaire à Big Data, JVM e Redes Sociais

Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...José Renato Pequeno
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesAlessandro Binhara
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaAlessandro Binhara
 

Similaire à Big Data, JVM e Redes Sociais (20)

Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Big Data
Big DataBig Data
Big Data
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
Big Data
Big DataBig Data
Big Data
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  Aplicações
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 

Big Data, JVM e Redes Sociais

  • 1. Big Data, JVM e Redes Sociais José Renato Pequeno
  • 3. Objetivos • Explosão de dados • O que Big Data não é • O que é Big Data? • Por quê Big Data? • Estudo de Caso • Quais são as técnicas e tecnologias que envolvem Big Data? • MapReduce (Hadoop) • NoSQL (HBase) • Machine Learning (Mahout/OpenNLP) • Experimento e Resultados • Conclusão
  • 7. Explosão de Dados Fonte : http://www.thebigdatainsightgroup.com/site/article/big-data-infographic
  • 9. Explosão de Dados Propaganda da IBM Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
  • 10. Explosão de Dados Propaganda da IBM Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
  • 11. Explosão de Dados Cena do Filme “Controle Absoluto” Fonte : http://www.youtube.com/watch?v=QkQ5jjpvhU0
  • 15. O que Big Data não é! • Um Produto. • Uma plataforma. • Uma solução. • Algo tangível. • Data Warehouse • Business Inteligence
  • 16. Estudo de Caso Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes- 15012013-25.shl
  • 17. Estudo de Caso Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big- data/#.U0yMC8eLdPo
  • 18. Quais são as profissões, técnicas e tecnologias que envolvem Big Data? • Para extrair todas as possibilidades do big data, você precisa aprimorar suas técnicas ou mesmo desenvolver novas técnicas para conseguir desbloquear o potencial dos dados. Hoje o potencial é superior ao que havia antes, pois os dados em tempo real não estruturado é enorme. • "Qualquer tolo pode saber... o ponto é entender”, Albert Einstein. • O ponto principal é entender, para PREVER. É disso que o conhecimento se trata. Isso se chama Inteligência Preditiva.
  • 19. Uma nova Profissão – Cientista de Dados
  • 20. Uma nova Profissão – Cientista de Dados
  • 21. Uma nova Profissão – Cientista de Dados
  • 26. O Momento Big Data Fonte:http://www.gartner.com/newsroom/id/2575515
  • 27. Falta de Profissionais Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de 4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos poderá ser preenchido com as capacitações disponíveis hoje em dia. Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a- disseminacao-do-big-data-trara-para-o-mercado/ Brasil precisa formar profissionais para Big Data, diz Gartner Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil oportunidades serão geradas no País, prevê a consultoria. Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar- profissionais-para-big-data-diz-gartner/
  • 28. Quais são as profissões, técnicas e tecnologias que envolvem Big Data?
  • 29. MapReduce • Criado pela equipe do Google em 2004. • Objetivo : É uma técnica, que mapeia um problema e seus dados associados, para um grande número de computadores (paralelismo), estejam eles procurando por texto ou realizando cálculos. Os sistemas retornam os resultados (MAP) e a informação é, então, “reduzida” (Reduce) para as respostas que quem definiu o problema estava procurando.
  • 30. Hadoop • Projeto Open Source • Criado pela Yahoo em 2005 • Licenciado pela Apache • É a combinação de dois projetos : Hadoop MapReduce (HMR) Hadoop Distributed File System (HDFS)
  • 31. Hadoop Apache Hadoop é um framework que permite o processamento de grandes volumes de dados através de clusters. É um sistema distribuído usando uma arquitetura Master-Slave armazenando informações através do Hadoop Distributed File System (HDFS) e implementa algoritmos de MapReduce.
  • 32. Hadoop MapReduce (HMR) • O HMR é a implementação do Hadoop do MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu buscador. Fonte : https://developers.google.com/appengine/docs/python/dataprocessing/over view
  • 36. Hadoop Distributed File System (HDFS) • O HDFS é um sistema de arquivos distribuídos otimizados para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o Google File System.
  • 39. • Em torno do Hadoop, a comunidade Apache mantém diversos projetos relacionados, como o Hbase, que é um banco de dados NoSQL que trabalha em cima do HDFS. • Utilizado pelo Facebook para suportar seu sistema de mensagens e os seus serviços de informações analíticas em tempo real.
  • 40. • É um sistema de captura de dados e framework de análise que trabalha com o Hadoop para processar e analisar grandes volumes de logs. Possui um conjuntos de ferramentas para visualizar e monitorar os dados capturados. Fonte : http://incubator.apache.org/chukwa/
  • 41. • É um sistema distribuído para capturar de forma eficiente, agregar e mover grandes quantidades de dados de log de diferentes origens (servidores) para um repositório central, simplificando assim o processo de novas coletas dos dados para posterior análise pelo Hadoop. Flume e Chukwa são projetos parecidos, a principal diferença entre eles é que o Chukwa é utilizado para processamento batch. Fonte : http://flume.apache.org
  • 42. • É um sistema de Data Warehouse para Hadoop que facilita a agregação dos dados, queries e análise de grandes datasets armazenados no Hadoop. Hive proporciona métodos de consulta de dados com uma linguagem parecida com o SQL, chamado de HiveQL. Possui interfaces JDBC/ODBC para integração com ferramentas de BI. Fonte : http://hive.apache.org/
  • 43. • É um projeto que permite criar aprendizado automático e data mining usando Hadoop. Através do Apache Mahout, padrões podem ser descobertos através de grandes datasets. Possui algoritmos de identificação e classificação. Fonte : http://mahout.apache.org/
  • 44. • É uma ferramenta utilizada para transferir de forma eficiente grandes quantidades de dados entre o Hadoop e sistemas de armazenamento de dados estruturados, como base de dados relacionais. • Permite importar tabelas individuais ou bases de dados entre o HDFS. • Gera classes Java que permitem manipular os dados importados. Fonte : http://sqoop.apache.org
  • 45. • É um projeto Apache que proporciona uma infraestrutura centralizada de serviços que permitem a sincronização dos clusters. Fonte : http://zookeeper.apache.org
  • 46. • É uma ferramenta de desenvolvimento, permite que os usuário de Hadoop se concentrem na análise dos dados e não em desenvolvimento de programas MapReduce. A análise é simplificada através de uma linguagem procedural de alto nível. Fonte :http://pig.apache.org/
  • 47. Jaql • É uma linguagem de consulta funcional e declarativa que facilita a exploração de informações no forma JSON (Javascript Object Notation) e arquivos semi-estruturado de texto. Projeto iniciado na IBM, o Jaql permite fazer select, join, group by e filtrar dados armazenados em HDFS. Fonte :https://code.google.com/p/jaql/
  • 48. • É um sistema de serialização de dados. Os projetos Hadoop manipulam grande quantidade de dados e a serialização destes dados tem que ser uma excelente performance. Esta serialização pode ser de texto, json e em formato binário. Com Avro podemos armazenar e ler dados facilmente através de diferentes linguagens de programação. Fonte :http://avro.apache.org
  • 49. • Apache UIMA (Unstructured Information Management Applications) É um framework para análise de grande volume de dados não estruturados, como texto, vídeo, audio, etc, obtendo conhecimento que pode ser relevante para uma determinada situação. Fonte :http://uima.apache.org/
  • 50. O que é Big Data? Segundo a Wikipedia: “Big Data consiste em datasets que crescem em uma escala tão grande e complexa que fica difícil de processar utilizando as ferramentas de gerenciamento de banco de dados tradicionais. As dificuldades incluem captura, armazenamento, busca, compartilhamento, analise e visualização.”
  • 51. O que é Big Data?
  • 52. O que é Big Data?
  • 53. O que é Big Data?
  • 54. O que é Big Data?
  • 55. Referências • Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big Data Problem Using Hadoop and Map Reduce. • Kapil Bakshi (2012), Considerations for Big Data: Architecture and Approach. • Sachchidanand Singh(2012), Big Data Analytics. • https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/ conhecendo_hadoop?lang=en • http://manifestonaweb.wordpress.com/2009/06/02/entendendo- mapreduce/ • http://mentablog.soliveirajr.com/2012/12/intro-to-parallel- processing-with-mapreduce/ • http://static.googleusercontent.com/external_content/untrusted_dlcp/res earch.google.com/en//archive/mapreduce-osdi04.pdf • https://developers.google.com/appengine/docs/python/dataprocessing/o verview#Determining_When_a_MapreducePipeline_Job_is_Complete