O documento apresenta Hadoop, uma plataforma de armazenamento e processamento de grandes volumes de dados. Apresenta as motivações para Hadoop, como a necessidade de analisar dados não estruturados e em grande volume. Resume a história do Hadoop, seu ecossistema e conceitos-chave como MapReduce. Demonstra um exemplo simples de job MapReduce.
9. Globalcode – Open4education
Hadoop: Passado
Presente e Futuro
Distros Hadoop:
Hortonworks (Microsoft)
Cloudera
Amazon Web Services
Intel
Hadoop as a Service
MRv1 vs YARN
YARN:
Impala
MPICH
Storm
10. Globalcode – Open4education
Conceituando Hadoop
Plataforma
Separa funções:
Armazenagem (Namenode, Datanode)
Processamento (Tasktracker)
Coordenação (JobTracker)
Tolerância a Falha:
Fator de Replicação
Task Attempts
18. Globalcode – Open4education
Mas e ai? Como começar
Gestão de Clusters (“Hadoop Operations”)
Whirr
Chef / puppet
OpsWorks
Desenvolvimento (“Hadoop Definitive Guide”)
Scripting
Java / Cascading
Hive / Pig
Ciência de Dados (“Coursera ”)