SlideShare une entreprise Scribd logo
1  sur  62
Télécharger pour lire hors ligne
Arquitetura do Framework
Apache Hadoop
Universidade Estadual do Rio de Janeiro - UERJ
Instituto de Matemática e Estatística- IME
FELIPE SCHIMITH BATISTA
Aluno de Mestrado
Framework
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Existem várias definições de framework.
Segundo Darren Govoni
Livro: Java application frameworks (1999)
“Um framework é uma coleção abstrata de classes, interfaces e padrões
dedicado a resolver um conjunto de problemas através de uma arquitetura
flexível e extensível”
Agenda
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
I. História
II. Introdução
III. Ecossistema Hadoop
IV. Conceito Map-Reduce
V. Arquitetura Hadoop
VI. Processamento
VII. Áreas de Aplicação
VIII. Exemplo de Aplicação
História
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Out 2003 : Google publicou o primeiro paper GFS (Google File System)
Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene)
começa a usar MapReduce
Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop
Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes
Jan 2008 : A Apache torna o Hadoop um projeto Top Level
Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos
(com 1406 nodes)
Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos
(com 2100 nodes)
Fontes: http://sortbenchmark.org/
http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf
http://www.ordinal.com/gensort.html
Introdução
Com o avanço tecnológico, as formas de computação que visam a melhoria no
desempenho dos algoritmos vêm sendo aprimoradas, um dos objetivos é a melhor
utilização dos recursos de hardware cada vez mais acessíveis, obtendo ganho de
tempo de processamento.
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Introdução
Algumas dessas soluções são baseadas em arquiteturas com memória compartilhada ou
arquiteturas com computação distribuída. Isso possibilita novos métodos de paralelismo e
clusterização, o que viabiliza a análise de uma quantidade de dados cada vez maior em
menos tempo.
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Memória
CPU
Tradicional
Execução
Memória
CPU
Memória centralizada (SMP)
CPUCPU
Memória
CPU
Computação Distribuída (Cluster)
CPUCPU
Memória Memória
FS FS FS
Arquitetura do framework
Apache Hadoop
SMP- Symmetric MultiProcessors
Ecossistema Hadoop
O Hadoop é um projeto open-source da Apache utilizado para computação distribuída.
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Fonte: http://hortonworks.com
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
• Princípio da Divisão e Conquista
• Alto desempenho
• Processamento em paralelo
Map-Reduce
• Gerenciador de Recursos do Cluster
• Negociador de Recusos
• Organizador de Tarefas
YARN
• Armazenamento distribuído
• Storage system tolerante a falhas
• Altamente escalável
Hadoop
Distributed File
System (HDFS)
Ecossistema Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Carro Moto Ônibus
Ônibus Barco Navio
Barco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Entrada
Divisão
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Carro Moto Ônibus
Ônibus Barco Navio
Barco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1
Moto 1
Ônibus 1
Ônibus 1
Barco 1
Navio 1
Ônibus 1
Barco 1
Navio 1
Entrada
Divisão
Map
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Carro Moto Ônibus
Ônibus Barco Navio
Barco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1
Moto 1
Ônibus 1
Ônibus 1
Barco 1
Navio 1
Ônibus 1
Barco 1
Navio 1
Carro 1
Ônibus 1
Ônibus 1
Ônibus 1
Barco 1
Barco 1
Moto 1
Navio 1
Navio 1
Entrada
Divisão
Map
Rearranja*
Ordena*
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Carro Moto Ônibus
Ônibus Barco Navio
Barco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1
Moto 1
Ônibus 1
Ônibus 1
Barco 1
Navio 1
Ônibus 1
Barco 1
Navio 1
Carro 1
Ônibus 1
Ônibus 1
Ônibus 1
Barco 1
Barco 1
Moto 1
Navio 1
Navio 1
Entrada
Divisão
Map
Rearranja*
Ordena*
Carro 1
Ônibus 3
Barco 2
Moto 1
Navio 2
Reduce
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Carro Moto Ônibus
Ônibus Barco Navio
Barco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1
Moto 1
Ônibus 1
Ônibus 1
Barco 1
Navio 1
Ônibus 1
Barco 1
Navio 1
Carro 1
Ônibus 1
Ônibus 1
Ônibus 1
Barco 1
Barco 1
Moto 1
Navio 1
Navio 1
Entrada
Divisão
Map
Rearranja*
Ordena*
Carro 1
Ônibus 3
Barco 2
Moto 1
Navio 2
Reduce
Barco 2
Carro 1
Moto 1
Navio 2
Ônibus 3
Resultado
Final
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Carro Moto Ônibus
Ônibus Barco Navio
Barco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1
Moto 1
Ônibus 1
Ônibus 1
Barco 1
Navio 1
Ônibus 1
Barco 1
Navio 1
Carro 1
Ônibus 1
Ônibus 1
Ônibus 1
Barco 1
Barco 1
Moto 1
Navio 1
Navio 1
Entrada
Divisão
Map
Rearranja*
Ordena*
Carro 1
Ônibus 3
Barco 2
Moto 1
Navio 2
Reduce
Barco 2
Carro 1
Moto 1
Navio 2
Ônibus 3
Resultado
Final
Map-Reduce Conceito Map-Reduce
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Resource
Manager
Node
Manager
Name
Node
Data
Node
Data
node
Map
Reduce
Camadas:
HDFS
master slave
1..N
1..N
Node
Manager
YARN Engine : Processa grande
número de dados em paralelo
com clusters de forma confiável e
tolerante a falhas.
HDFS : Armazena e gerencia os
arquivos em nodes do cluster Hadoop
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Resource
Manager
Node
Manager
master slave
1..N
Node
Manager
Resource Manager
• Aceita tarefas de Map-Reduce ou YARN Apps
• Atribui tarefas ao Node Manager
• Monitora o estado do NM
• Gerencia concorrência entre aplicações
Node Manager
• Executa tarefas de Aplicação
• Envia seu status para o Resource Manager
• Recupera recursos do HDFS
Camada: Map Reduce
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Containers
• Criado pelo Resource Manger
• Aloca recursos
• Aplicação pode rodar em um ou mais containers
Application Master
• Um por aplicação
• Roda em um Container
• Requisita mais containers para rodar as tarefas
Node Manager
Application Master
Container
Camada: YARN
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
Instancia
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
Solicita Recursos
• Nome (do Recurso, ou Rack)
• Número de Containers
• Recursos necessários
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
Cria Containers necessários
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
Retorna os ID dos Containers
Container
• ID
• Node
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
MinhaApp
MinhaApp
Executa
Executa
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
MinhaApp
MinhaApp
Cliente
Aplicação:
OutraApp
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
MinhaApp
MinhaApp
Cliente
Application Master
OutraApp
Aplicação:
OutraApp
OutraApp
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
MinhaApp
MinhaApp
Cliente
Application Master
OutraApp
OutraApp
Retorna os Resultados
Aplicação:
OutraApp
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Cliente
Aplicação:
MinhaApp
Application Master
MinhaApp
MinhaApp
Cliente
Application Master
OutraApp
OutraApp
Aplicação:
OutraApp
Encerra os Containers e
App Masters
Finaliza as
aplicações
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
Resource
Manager
Node Manager 3
Node Manager 2
Node Manager 1
Fica Disponível
YARN
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Name Node
• Mapeia os blocos nos Data Nodes
• Controla Leitura/Escrita dos dados
• Gerencia a replicação de Blocos
Data Node
• Responsável pelo atendimento de
solicitações de leitura e gravação (criação do
bloco, exclusão e replicação)
Name
Node
Data
Node
Data
node
master slave
1..N
Camada: HDFS
HDFS
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4
Requisita o Recurso
Name
Node
Data Node 3
Data Node 2
Data Node 1
• Projetado para suportar arquivos muito grandes > TB.
HDFS
HDFS
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4Name
Node
Data Node 3
Data Node 2
Data Node 1
HDFS
Ex: TIFF 500MB
• Melhor aplicado em situações write once read many.
• Otimizado para Streaming reads.
HDFS
Arquitetura do framework
Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4
Requisita o Recurso
Name
Node
Data Node 3
Data Node 2
Data Node 1
Ex: TIFF 500MB
128 MB
128 MB
128 MB
116 MB
• Tamanho default de um bloco: 64 MB ou 128 MB. (FS 4KB a 8KB)
HDFS
Bloco1
Bloco2
Bloco3
Bloco4
HDFS
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4Name
Node
Data Node 3
Data Node 2
Data Node 1
Ex: TIFF 500MB
Referência do Dado
HDFS
• Cada bloco irá residir se possível em um DataNode diferente.
Bloco1
Bloco2
Bloco3
Bloco4
HDFS Arquitetura do Hadoop
Arquitetura do framework
Apache Hadoop
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
Blocos: 1, 5, 3,
2, 8, 6
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
HDFS
Arquitetura do framework
Apache Hadoop
Blocos:
Replicação do HDFS
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
Blocos: 1, 5, 3,
2, 8, 6
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
HDFS
Arquitetura do framework
Apache Hadoop
Blocos:
Replicação do HDFS
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
Blocos: 1, 5, 3,
2, 8, 6
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
HDFS
Arquitetura do framework
Apache Hadoop
Blocos:
Replicação do HDFS
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
Blocos: 1, 5, 3,
2, 8, 6
HDFS
Arquitetura do framework
Apache Hadoop
Blocos:
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
Blocos: 1, 5, 3,
2, 8, 6
HDFS
Arquitetura do framework
Apache Hadoop
Blocos:
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
HDFS
Arquitetura do framework
Apache Hadoop
Blocos:
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,
2, 6
Blocos: 1, 2, 5, 7,
4, 3
Blocos: 1, 5, 3,
2, 6
HDFS
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
HDFS
Name
Node
Processamento
Arquitetura do framework
Apache Hadoop
Ex: PDF
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Name
Node
Divide o dado
em blocos
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
HDFS
Name
Node
Guarda a
referência
dos Blocos
Bloco1
Bloco2
Bloco3
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Name
Node
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:
ContaPalavras
Instancia App
Master
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:
ContaPalavras
Name
Node
Instancia
Containers
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:
ContaPalavras
ContaPal. Map
ContaPal. Map
ContaPal. Map
Name
Node
Executa Fase Map
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:
ContaPalavras
ContaPal. Map
ContaPal. Map
ContaPal. Map
Name
Node
Requisita 3
Containers
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:
ContaPalavras
Name
Node
Instancia
Containers
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
Aplicação:
ContaPalavras
App Master
ContaPal.Reducer
ContaPal.Reducer
Name
Node
Executa Fase Reduce
ContaPal.Reducer
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
Aplicação:
ContaPalavras
App Master
ContaPal.Reducer
ContaPal.Reducer
Name
Node
Retorna Resultado
Processamento
Arquitetura do framework
Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
Resource
Manager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
Name
Node
Exibe Resultado
Aplicação:
ContaPalavras
Processamento
Arquitetura do framework
Apache Hadoop
Áreas de aplicação
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Financeiro Duminuição de risco de financimento
Governo Diminuição de custos e melhor distribuição de efetivo e orçamento
Saúde Análise de dados de sensores, monitoramento, genoma
Indústria Sensores de monitoramento para manutenção de peças
Óleo & Gas Análise de dados de sensores na Exploração
eComerce Recomendação de produtos e venda online
Comunicação Propaganda baseada na localização
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Exemplo de Aplicação: Saúde
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
O pesquisador Michael Schatz e
sua equipe da Universidade de
Maryland construíram o
Crossbow usando o Hadoop em
cloud que proporciona o custo
de analisar um genoma humano
abaixo de US $ 85 em 3 horas
(40 nodes com 320-cores).
http://bowtie-
bio.sourceforge.net/crossbow/inde
x.shtml
Custo do Genoma
Lei de Gordon E. Moore
História
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Out 2003 : Google publicou o primeiro paper GFS (Google File System)
Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene)
começa a usar MapReduce
Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop
Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes
Jan 2008 : A Apache torna o Hadoop um projeto Top Level
Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos
(com 1406 nodes)
Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos
(com 2100 nodes)
Fontes: http://sortbenchmark.org/
http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf
http://www.ordinal.com/gensort.html
Exemplo de Aplicação: Logística
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
US Xpress uma das maiores
companhias de caminhão nos EUA
está usando o Hadoop para
armazenar dados de sensores de
seus caminhões. Com resultado das
análises eles economizam
6 milhões de dólares/ano em
custos de combustível.
http://www.computerweekly.com/new
s/2240146943/Case-Study-US-Xpress-
deploys-hybrid-big-data-with-
Informatica
Exemplo de Aplicação: Telecom
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Nokia -Nokia recolhe e analisa grandes
quantidades de dados de telefones
móveis
Problema:
(1) Lidar com 100TB de dados
estruturados e 500TB de dados + semi-
estruturado
(2) Média de novos dados : 1TB / dia
Solução: HDFS que oferece o
processamento de dados em escala de
peta bytes.
http://strataconf.com/stratany2012/public/s
chedule/detail/26880
Visitem
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop
Sort Benchmark Home Page
http://sortbenchmark.org/
Paper do Google
http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf
Aplicação baseada em Hadoop para análise do Genoma
http://bowtie-bio.sourceforge.net/crossbow/index.shtml
Obrigado!!!
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework
Apache Hadoop

Contenu connexe

Tendances

Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache SparkSandys Nunes
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesGuilherme Araújo
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceMatteus Barbosa
 
Hive vs impala vs spark - tuning
Hive vs impala vs spark - tuningHive vs impala vs spark - tuning
Hive vs impala vs spark - tuningTiago Simões
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensAlessandro Binhara
 
Entendendo a Arquitetura de Armazenamento, parte 1
Entendendo a Arquitetura de Armazenamento, parte 1Entendendo a Arquitetura de Armazenamento, parte 1
Entendendo a Arquitetura de Armazenamento, parte 1Rodolfo Mendes
 
Bancos de dados analíticos open source
Bancos de dados analíticos open sourceBancos de dados analíticos open source
Bancos de dados analíticos open sourceMatheus Espanhol
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 

Tendances (20)

Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache Spark
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Hbase trabalho final
Hbase trabalho finalHbase trabalho final
Hbase trabalho final
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e Aplicações
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Hadoop
HadoopHadoop
Hadoop
 
Hbase
HbaseHbase
Hbase
 
Hadoop
HadoopHadoop
Hadoop
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
 
Hive vs impala vs spark - tuning
Hive vs impala vs spark - tuningHive vs impala vs spark - tuning
Hive vs impala vs spark - tuning
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvens
 
Entendendo a Arquitetura de Armazenamento, parte 1
Entendendo a Arquitetura de Armazenamento, parte 1Entendendo a Arquitetura de Armazenamento, parte 1
Entendendo a Arquitetura de Armazenamento, parte 1
 
MapReduce
MapReduceMapReduce
MapReduce
 
Bancos de dados analíticos open source
Bancos de dados analíticos open sourceBancos de dados analíticos open source
Bancos de dados analíticos open source
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 

Similaire à Arquitetura do Framework Apache Hadoop 2.6

Cakephp - framework de desenvolvimento de aplicações Web em PHP
Cakephp - framework de desenvolvimento de aplicações Web em PHPCakephp - framework de desenvolvimento de aplicações Web em PHP
Cakephp - framework de desenvolvimento de aplicações Web em PHPArlindo Santos
 
Apache CouchDB
Apache CouchDBApache CouchDB
Apache CouchDBHugo Souza
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...Luiz Henrique Zambom Santana
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...tdc-globalcode
 
Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...
Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...
Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...BrunoSouza617
 
Modelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopBig Data Week São Paulo
 
Otimizacao de websites em PHP
Otimizacao de websites em PHPOtimizacao de websites em PHP
Otimizacao de websites em PHPFelipe Ribeiro
 
Semana Acadêmica ICET - Feevale - 12/04/2014
Semana Acadêmica ICET - Feevale - 12/04/2014Semana Acadêmica ICET - Feevale - 12/04/2014
Semana Acadêmica ICET - Feevale - 12/04/2014Getup Cloud
 
Web Seminário sobre Varnish+Nginx+Apache
Web Seminário sobre Varnish+Nginx+ApacheWeb Seminário sobre Varnish+Nginx+Apache
Web Seminário sobre Varnish+Nginx+ApacheDell Technologies
 
Ruby on Rails: um estudo de viabilidade em ambientes empresariais
Ruby on Rails: um estudo de viabilidade em ambientes empresariaisRuby on Rails: um estudo de viabilidade em ambientes empresariais
Ruby on Rails: um estudo de viabilidade em ambientes empresariaisRodrigo Recio
 
Amazon emr cluster hadoop pronto para usar na nuvem aws
Amazon emr   cluster hadoop pronto para usar na nuvem awsAmazon emr   cluster hadoop pronto para usar na nuvem aws
Amazon emr cluster hadoop pronto para usar na nuvem awsAmazon Web Services LATAM
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRAmazon Web Services LATAM
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureFabrício Lopes Sanchez
 
Alta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHPAlta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHPMySQL Brasil
 
2290494 integrando-flex-com-php
2290494 integrando-flex-com-php2290494 integrando-flex-com-php
2290494 integrando-flex-com-phpBrenno Abreu
 
Ligação do Flex a um backend LAMP usando AMFPHP
Ligação do Flex a um backend LAMP usando AMFPHPLigação do Flex a um backend LAMP usando AMFPHP
Ligação do Flex a um backend LAMP usando AMFPHPelliando dias
 

Similaire à Arquitetura do Framework Apache Hadoop 2.6 (20)

De 1 a 1.000.00 de usuários
De 1 a 1.000.00 de usuáriosDe 1 a 1.000.00 de usuários
De 1 a 1.000.00 de usuários
 
Cakephp - framework de desenvolvimento de aplicações Web em PHP
Cakephp - framework de desenvolvimento de aplicações Web em PHPCakephp - framework de desenvolvimento de aplicações Web em PHP
Cakephp - framework de desenvolvimento de aplicações Web em PHP
 
Apache CouchDB
Apache CouchDBApache CouchDB
Apache CouchDB
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
 
Ruby on Rails for beginners 2.0
Ruby on Rails for beginners 2.0Ruby on Rails for beginners 2.0
Ruby on Rails for beginners 2.0
 
Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...
Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...
Symfony Live - São Paulo 2019 - Como construir uma API em um passo com API Pl...
 
Web seminario varnish
Web seminario varnishWeb seminario varnish
Web seminario varnish
 
Modelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no Hadoop
 
Otimizacao de websites em PHP
Otimizacao de websites em PHPOtimizacao de websites em PHP
Otimizacao de websites em PHP
 
Semana Acadêmica ICET - Feevale - 12/04/2014
Semana Acadêmica ICET - Feevale - 12/04/2014Semana Acadêmica ICET - Feevale - 12/04/2014
Semana Acadêmica ICET - Feevale - 12/04/2014
 
Web Seminário sobre Varnish+Nginx+Apache
Web Seminário sobre Varnish+Nginx+ApacheWeb Seminário sobre Varnish+Nginx+Apache
Web Seminário sobre Varnish+Nginx+Apache
 
Spark .net
Spark .netSpark .net
Spark .net
 
Ruby on Rails: um estudo de viabilidade em ambientes empresariais
Ruby on Rails: um estudo de viabilidade em ambientes empresariaisRuby on Rails: um estudo de viabilidade em ambientes empresariais
Ruby on Rails: um estudo de viabilidade em ambientes empresariais
 
Amazon emr cluster hadoop pronto para usar na nuvem aws
Amazon emr   cluster hadoop pronto para usar na nuvem awsAmazon emr   cluster hadoop pronto para usar na nuvem aws
Amazon emr cluster hadoop pronto para usar na nuvem aws
 
Migrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMRMigrando seu workload de Big Data para o Amazon EMR
Migrando seu workload de Big Data para o Amazon EMR
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
 
Alta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHPAlta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHP
 
2290494 integrando-flex-com-php
2290494 integrando-flex-com-php2290494 integrando-flex-com-php
2290494 integrando-flex-com-php
 
Ligação do Flex a um backend LAMP usando AMFPHP
Ligação do Flex a um backend LAMP usando AMFPHPLigação do Flex a um backend LAMP usando AMFPHP
Ligação do Flex a um backend LAMP usando AMFPHP
 

Plus de Felipe Schimith Batista

Decomposições de matrizes utilizando conceitos de Auto Vetores e Auto Valores
Decomposições de matrizes utilizando conceitos de Auto Vetores e Auto ValoresDecomposições de matrizes utilizando conceitos de Auto Vetores e Auto Valores
Decomposições de matrizes utilizando conceitos de Auto Vetores e Auto ValoresFelipe Schimith Batista
 

Plus de Felipe Schimith Batista (6)

Apresentação openMP
Apresentação openMPApresentação openMP
Apresentação openMP
 
Métricas de Similaridade de Imagens
Métricas de Similaridade de ImagensMétricas de Similaridade de Imagens
Métricas de Similaridade de Imagens
 
Métricas de Similaridade de Imagens
Métricas de Similaridade de ImagensMétricas de Similaridade de Imagens
Métricas de Similaridade de Imagens
 
Decomposições de matrizes utilizando conceitos de Auto Vetores e Auto Valores
Decomposições de matrizes utilizando conceitos de Auto Vetores e Auto ValoresDecomposições de matrizes utilizando conceitos de Auto Vetores e Auto Valores
Decomposições de matrizes utilizando conceitos de Auto Vetores e Auto Valores
 
Algebra linear operações com matrizes
Algebra linear   operações com matrizesAlgebra linear   operações com matrizes
Algebra linear operações com matrizes
 
Algebra linear operações com matrizes
Algebra linear operações com matrizesAlgebra linear operações com matrizes
Algebra linear operações com matrizes
 

Arquitetura do Framework Apache Hadoop 2.6

  • 1. Arquitetura do Framework Apache Hadoop Universidade Estadual do Rio de Janeiro - UERJ Instituto de Matemática e Estatística- IME FELIPE SCHIMITH BATISTA Aluno de Mestrado
  • 2. Framework TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Existem várias definições de framework. Segundo Darren Govoni Livro: Java application frameworks (1999) “Um framework é uma coleção abstrata de classes, interfaces e padrões dedicado a resolver um conjunto de problemas através de uma arquitetura flexível e extensível”
  • 3. Agenda TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop I. História II. Introdução III. Ecossistema Hadoop IV. Conceito Map-Reduce V. Arquitetura Hadoop VI. Processamento VII. Áreas de Aplicação VIII. Exemplo de Aplicação
  • 4. História TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Out 2003 : Google publicou o primeiro paper GFS (Google File System) Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene) começa a usar MapReduce Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes Jan 2008 : A Apache torna o Hadoop um projeto Top Level Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos (com 1406 nodes) Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos (com 2100 nodes) Fontes: http://sortbenchmark.org/ http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf http://www.ordinal.com/gensort.html
  • 5. Introdução Com o avanço tecnológico, as formas de computação que visam a melhoria no desempenho dos algoritmos vêm sendo aprimoradas, um dos objetivos é a melhor utilização dos recursos de hardware cada vez mais acessíveis, obtendo ganho de tempo de processamento. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop
  • 6. Introdução Algumas dessas soluções são baseadas em arquiteturas com memória compartilhada ou arquiteturas com computação distribuída. Isso possibilita novos métodos de paralelismo e clusterização, o que viabiliza a análise de uma quantidade de dados cada vez maior em menos tempo. TÍTULO DO SEU SEMINÁRIO Subtítulo Memória CPU Tradicional Execução Memória CPU Memória centralizada (SMP) CPUCPU Memória CPU Computação Distribuída (Cluster) CPUCPU Memória Memória FS FS FS Arquitetura do framework Apache Hadoop SMP- Symmetric MultiProcessors
  • 7. Ecossistema Hadoop O Hadoop é um projeto open-source da Apache utilizado para computação distribuída. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Fonte: http://hortonworks.com
  • 8. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop • Princípio da Divisão e Conquista • Alto desempenho • Processamento em paralelo Map-Reduce • Gerenciador de Recursos do Cluster • Negociador de Recusos • Organizador de Tarefas YARN • Armazenamento distribuído • Storage system tolerante a falhas • Altamente escalável Hadoop Distributed File System (HDFS) Ecossistema Hadoop
  • 9. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Carro Moto Ônibus Ônibus Barco Navio Barco Carro Barco Carro Moto Ônibus Ônibus Barco Navio Ônibus Barco Navio Entrada Divisão Map-Reduce Conceito Map-Reduce
  • 10. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Carro Moto Ônibus Ônibus Barco Navio Barco Carro Barco Carro Moto Ônibus Ônibus Barco Navio Ônibus Barco Navio Carro 1 Moto 1 Ônibus 1 Ônibus 1 Barco 1 Navio 1 Ônibus 1 Barco 1 Navio 1 Entrada Divisão Map Map-Reduce Conceito Map-Reduce
  • 11. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Carro Moto Ônibus Ônibus Barco Navio Barco Carro Barco Carro Moto Ônibus Ônibus Barco Navio Ônibus Barco Navio Carro 1 Moto 1 Ônibus 1 Ônibus 1 Barco 1 Navio 1 Ônibus 1 Barco 1 Navio 1 Carro 1 Ônibus 1 Ônibus 1 Ônibus 1 Barco 1 Barco 1 Moto 1 Navio 1 Navio 1 Entrada Divisão Map Rearranja* Ordena* Map-Reduce Conceito Map-Reduce
  • 12. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Carro Moto Ônibus Ônibus Barco Navio Barco Carro Barco Carro Moto Ônibus Ônibus Barco Navio Ônibus Barco Navio Carro 1 Moto 1 Ônibus 1 Ônibus 1 Barco 1 Navio 1 Ônibus 1 Barco 1 Navio 1 Carro 1 Ônibus 1 Ônibus 1 Ônibus 1 Barco 1 Barco 1 Moto 1 Navio 1 Navio 1 Entrada Divisão Map Rearranja* Ordena* Carro 1 Ônibus 3 Barco 2 Moto 1 Navio 2 Reduce Map-Reduce Conceito Map-Reduce
  • 13. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Carro Moto Ônibus Ônibus Barco Navio Barco Carro Barco Carro Moto Ônibus Ônibus Barco Navio Ônibus Barco Navio Carro 1 Moto 1 Ônibus 1 Ônibus 1 Barco 1 Navio 1 Ônibus 1 Barco 1 Navio 1 Carro 1 Ônibus 1 Ônibus 1 Ônibus 1 Barco 1 Barco 1 Moto 1 Navio 1 Navio 1 Entrada Divisão Map Rearranja* Ordena* Carro 1 Ônibus 3 Barco 2 Moto 1 Navio 2 Reduce Barco 2 Carro 1 Moto 1 Navio 2 Ônibus 3 Resultado Final Map-Reduce Conceito Map-Reduce
  • 14. TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Carro Moto Ônibus Ônibus Barco Navio Barco Carro Barco Carro Moto Ônibus Ônibus Barco Navio Ônibus Barco Navio Carro 1 Moto 1 Ônibus 1 Ônibus 1 Barco 1 Navio 1 Ônibus 1 Barco 1 Navio 1 Carro 1 Ônibus 1 Ônibus 1 Ônibus 1 Barco 1 Barco 1 Moto 1 Navio 1 Navio 1 Entrada Divisão Map Rearranja* Ordena* Carro 1 Ônibus 3 Barco 2 Moto 1 Navio 2 Reduce Barco 2 Carro 1 Moto 1 Navio 2 Ônibus 3 Resultado Final Map-Reduce Conceito Map-Reduce
  • 15. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Resource Manager Node Manager Name Node Data Node Data node Map Reduce Camadas: HDFS master slave 1..N 1..N Node Manager YARN Engine : Processa grande número de dados em paralelo com clusters de forma confiável e tolerante a falhas. HDFS : Armazena e gerencia os arquivos em nodes do cluster Hadoop Arquitetura do framework Apache Hadoop
  • 16. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Resource Manager Node Manager master slave 1..N Node Manager Resource Manager • Aceita tarefas de Map-Reduce ou YARN Apps • Atribui tarefas ao Node Manager • Monitora o estado do NM • Gerencia concorrência entre aplicações Node Manager • Executa tarefas de Aplicação • Envia seu status para o Resource Manager • Recupera recursos do HDFS Camada: Map Reduce Arquitetura do framework Apache Hadoop
  • 17. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Containers • Criado pelo Resource Manger • Aloca recursos • Aplicação pode rodar em um ou mais containers Application Master • Um por aplicação • Roda em um Container • Requisita mais containers para rodar as tarefas Node Manager Application Master Container Camada: YARN YARN Arquitetura do framework Apache Hadoop
  • 18. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp YARN Arquitetura do framework Apache Hadoop
  • 19. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master Instancia YARN Arquitetura do framework Apache Hadoop
  • 20. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master Solicita Recursos • Nome (do Recurso, ou Rack) • Número de Containers • Recursos necessários YARN Arquitetura do framework Apache Hadoop
  • 21. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master Cria Containers necessários YARN Arquitetura do framework Apache Hadoop
  • 22. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master Retorna os ID dos Containers Container • ID • Node YARN Arquitetura do framework Apache Hadoop
  • 23. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master MinhaApp MinhaApp Executa Executa YARN Arquitetura do framework Apache Hadoop
  • 24. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master MinhaApp MinhaApp Cliente Aplicação: OutraApp YARN Arquitetura do framework Apache Hadoop
  • 25. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master MinhaApp MinhaApp Cliente Application Master OutraApp Aplicação: OutraApp OutraApp YARN Arquitetura do framework Apache Hadoop
  • 26. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master MinhaApp MinhaApp Cliente Application Master OutraApp OutraApp Retorna os Resultados Aplicação: OutraApp YARN Arquitetura do framework Apache Hadoop
  • 27. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Cliente Aplicação: MinhaApp Application Master MinhaApp MinhaApp Cliente Application Master OutraApp OutraApp Aplicação: OutraApp Encerra os Containers e App Masters Finaliza as aplicações YARN Arquitetura do framework Apache Hadoop
  • 28. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 4 Requisita o Recurso Resource Manager Node Manager 3 Node Manager 2 Node Manager 1 Fica Disponível YARN Arquitetura do framework Apache Hadoop
  • 29. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Name Node • Mapeia os blocos nos Data Nodes • Controla Leitura/Escrita dos dados • Gerencia a replicação de Blocos Data Node • Responsável pelo atendimento de solicitações de leitura e gravação (criação do bloco, exclusão e replicação) Name Node Data Node Data node master slave 1..N Camada: HDFS HDFS Arquitetura do framework Apache Hadoop
  • 30. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Data Node 4 Requisita o Recurso Name Node Data Node 3 Data Node 2 Data Node 1 • Projetado para suportar arquivos muito grandes > TB. HDFS HDFS Arquitetura do framework Apache Hadoop
  • 31. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Data Node 4Name Node Data Node 3 Data Node 2 Data Node 1 HDFS Ex: TIFF 500MB • Melhor aplicado em situações write once read many. • Otimizado para Streaming reads. HDFS Arquitetura do framework Apache Hadoop
  • 32. Arquitetura do Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Data Node 4 Requisita o Recurso Name Node Data Node 3 Data Node 2 Data Node 1 Ex: TIFF 500MB 128 MB 128 MB 128 MB 116 MB • Tamanho default de um bloco: 64 MB ou 128 MB. (FS 4KB a 8KB) HDFS Bloco1 Bloco2 Bloco3 Bloco4 HDFS Arquitetura do framework Apache Hadoop
  • 33. TÍTULO DO SEU SEMINÁRIO Subtítulo Data Node 4Name Node Data Node 3 Data Node 2 Data Node 1 Ex: TIFF 500MB Referência do Dado HDFS • Cada bloco irá residir se possível em um DataNode diferente. Bloco1 Bloco2 Bloco3 Bloco4 HDFS Arquitetura do Hadoop Arquitetura do framework Apache Hadoop
  • 34. Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 Blocos: 1, 5, 3, 2, 8, 6 TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes HDFS Arquitetura do framework Apache Hadoop Blocos: Replicação do HDFS
  • 35. Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 Blocos: 1, 5, 3, 2, 8, 6 TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes HDFS Arquitetura do framework Apache Hadoop Blocos: Replicação do HDFS
  • 36. Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 Blocos: 1, 5, 3, 2, 8, 6 TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes HDFS Arquitetura do framework Apache Hadoop Blocos: Replicação do HDFS
  • 37. Replicação do HDFS TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 Blocos: 1, 5, 3, 2, 8, 6 HDFS Arquitetura do framework Apache Hadoop Blocos:
  • 38. Replicação do HDFS TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 Blocos: 1, 5, 3, 2, 8, 6 HDFS Arquitetura do framework Apache Hadoop Blocos:
  • 39. Replicação do HDFS TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 HDFS Arquitetura do framework Apache Hadoop Blocos:
  • 40. Replicação do HDFS TÍTULO DO SEU SEMINÁRIO Subtítulo Nome do Arquivo Fator de Replicação Block ID Arquivo A 3 [1, 2, 3] Arquivo B 2 [4, 5, 6] Arquivo C 1 [7,8] Name Node Data Nodes Blocos: 1, 4, 3, 2, 6 Blocos: 1, 2, 5, 7, 4, 3 Blocos: 1, 5, 3, 2, 6 HDFS Arquitetura do framework Apache Hadoop
  • 41. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 HDFS Name Node Processamento Arquitetura do framework Apache Hadoop Ex: PDF
  • 42. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Name Node Divide o dado em blocos Processamento Arquitetura do framework Apache Hadoop
  • 43. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 HDFS Name Node Guarda a referência dos Blocos Bloco1 Bloco2 Bloco3 Processamento Arquitetura do framework Apache Hadoop
  • 44. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Name Node Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente App Master Aplicação: ContaPalavras Instancia App Master Processamento Arquitetura do framework Apache Hadoop
  • 45. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente App Master Aplicação: ContaPalavras Name Node Instancia Containers Processamento Arquitetura do framework Apache Hadoop
  • 46. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente App Master Aplicação: ContaPalavras ContaPal. Map ContaPal. Map ContaPal. Map Name Node Executa Fase Map Processamento Arquitetura do framework Apache Hadoop
  • 47. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente App Master Aplicação: ContaPalavras ContaPal. Map ContaPal. Map ContaPal. Map Name Node Requisita 3 Containers Processamento Arquitetura do framework Apache Hadoop
  • 48. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente App Master Aplicação: ContaPalavras Name Node Instancia Containers Processamento Arquitetura do framework Apache Hadoop
  • 49. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente Aplicação: ContaPalavras App Master ContaPal.Reducer ContaPal.Reducer Name Node Executa Fase Reduce ContaPal.Reducer Processamento Arquitetura do framework Apache Hadoop
  • 50. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente Aplicação: ContaPalavras App Master ContaPal.Reducer ContaPal.Reducer Name Node Retorna Resultado Processamento Arquitetura do framework Apache Hadoop
  • 51. TÍTULO DO SEU SEMINÁRIO Subtítulo Node Manager 3 Data Node 3 Bloco1 Bloco2 Node Manager 2 Data Node 2 Node Manager 1 Data Node 1 Node Manager 4 Data Node 4 Resource Manager HDFS Node Manager 5 Data Node 5 Node Manager 6 Data Node 6 Node Manager 7 Data Node 7 Bloco3 Cliente Name Node Exibe Resultado Aplicação: ContaPalavras Processamento Arquitetura do framework Apache Hadoop
  • 52. Áreas de aplicação TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Financeiro Duminuição de risco de financimento Governo Diminuição de custos e melhor distribuição de efetivo e orçamento Saúde Análise de dados de sensores, monitoramento, genoma Indústria Sensores de monitoramento para manutenção de peças Óleo & Gas Análise de dados de sensores na Exploração eComerce Recomendação de produtos e venda online Comunicação Propaganda baseada na localização
  • 53. Empresas que adotam o Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop
  • 54. Empresas que adotam o Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop
  • 55. Empresas que adotam o Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop
  • 56. Empresas que adotam o Hadoop TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop
  • 57. Exemplo de Aplicação: Saúde TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop O pesquisador Michael Schatz e sua equipe da Universidade de Maryland construíram o Crossbow usando o Hadoop em cloud que proporciona o custo de analisar um genoma humano abaixo de US $ 85 em 3 horas (40 nodes com 320-cores). http://bowtie- bio.sourceforge.net/crossbow/inde x.shtml Custo do Genoma Lei de Gordon E. Moore
  • 58. História TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Out 2003 : Google publicou o primeiro paper GFS (Google File System) Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene) começa a usar MapReduce Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes Jan 2008 : A Apache torna o Hadoop um projeto Top Level Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos (com 1406 nodes) Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos (com 2100 nodes) Fontes: http://sortbenchmark.org/ http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf http://www.ordinal.com/gensort.html
  • 59. Exemplo de Aplicação: Logística TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop US Xpress uma das maiores companhias de caminhão nos EUA está usando o Hadoop para armazenar dados de sensores de seus caminhões. Com resultado das análises eles economizam 6 milhões de dólares/ano em custos de combustível. http://www.computerweekly.com/new s/2240146943/Case-Study-US-Xpress- deploys-hybrid-big-data-with- Informatica
  • 60. Exemplo de Aplicação: Telecom TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Nokia -Nokia recolhe e analisa grandes quantidades de dados de telefones móveis Problema: (1) Lidar com 100TB de dados estruturados e 500TB de dados + semi- estruturado (2) Média de novos dados : 1TB / dia Solução: HDFS que oferece o processamento de dados em escala de peta bytes. http://strataconf.com/stratany2012/public/s chedule/detail/26880
  • 61. Visitem TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop Sort Benchmark Home Page http://sortbenchmark.org/ Paper do Google http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf Aplicação baseada em Hadoop para análise do Genoma http://bowtie-bio.sourceforge.net/crossbow/index.shtml
  • 62. Obrigado!!! TÍTULO DO SEU SEMINÁRIO Subtítulo Arquitetura do framework Apache Hadoop