Hadoop barcamp 2011

Hadoop y Mapreduce
(y otras yerbas)
Cómo analizar petabytes de datos y no
morir en el intento

domingo 6 de noviembre de 2011

Quién soy yo?

• Ezequiel Golub
• Desarrollador en Smowtion
• Antes en wixi.com
• Hace 3 meses implementamos Hadoop
y estamos contentos!


Primero lo primero


Qué es Hadoop?

• Framework para aplicaciones
distribuidas en miles de nodos

• Ahora familia de productos,
pero en su core son 2:

• HDFS
• Map/Reduce
• Proyecto de apache.org


Historia
• Inspirado por los papers de Google
Mapreduce y bigtable del 2004
• Creado por Doug Cutting para ser
usado por Nutch, un buscador de
codigo libre
• BTW, Doug Cutting invento Lucene
• Hadoop era el elefante de juguete de su
hijo


Limitaciones de RDBMS
• Datasets de petabytes
• no escalan horizontalmente
• Escalar horizontalmente = chau ACID
• Particionar y shardear es diﬁcil.
• Rendimiento de lecturas o escrituras:
Elegí una.

• Usar hardware especializado = $$$!!


Por qué Hadoop?
• Escalabilidad horizontal
• Conﬁabilidad
• Apoyo de comunidad
• Map/Reduce
• Orientado a procesos batch para datos
“grandes”

• AWS


Qué no es Hadoop?

• Una base de datos relacional
• Un sistema de almacenamiento de
datos estructurado

• Online (Con excepciones!)


Quienes lo usan?

Cuándo usar Hadoop?
• Demasiados datos para que entren en
algun tipo de datastore comodamente

• Datos desestructurados
• Y necesitas analizarlos!
• Y necesitas alta disponibilidad!
• Suﬁcientes datos para que analizarlos
en una sola maquina sea diﬁcil


Donde se usa?
• Log File & Web Analytics
• Ad Targeting
• Scientiﬁc Applications
• Financial Analysis
• Search
• Natural Language Processing
• Image processing
• Data warehousing


Componentes


HDFS

• Sistema de archivos distribuido,
redundante y con alta disponibilidad.
• Soporta archivos muy grandes.
• Pensado para commodity hardware
• Acceso streaming de baja latencia y
alta transferencia.


HDFS
• Integridad y compresión soportadas
nativamente

• N copias de cada bloque del archivo
distribuidas

• 1 namenode para N datanodes
• Location aware
• Interfaz tipo linux (mv, cp, rm, ls, etc)


Ventajas

• Tolerancia a los fallos
• Autoregenerativo
• Escalable
• Conﬁabilidad
• Soporte


HDFS
• Mantiene metadata
• Ubicación de
bloques
Backupnode Namenode
• No tiene los datos!
• SPOF

Datanode Datanode Datanode

• Contiene los
datos
• No tiene
metadata

• Sirve los datos a
los clientes

Leer
Ubicación de los
Cliente bloques, metada
Namenode Backupnode
HDFS

Transferencia
de datos

Datanode Datanode Datanode Datanode


Escribir
{node1,node2,
Cliente node3}
foo.bar HDFS
Namenode Backupnode

Transferencia
de datos



Escribir
{node1,node2,
Cliente node4}
foo.bar HDFS
Namenode Backupnode

Transferencia
de datos



Escribir
{node2,node3,
Cliente node4}
foo.bar HDFS
Namenode Backupnode

Transferencia
de datos



Escribir
{node1,node3,
Cliente node4}
foo.bar HDFS
Namenode Backupnode

Transferencia
de datos



Fault tolerance
Namenode Backupnode

El namenode detecta un
datanode caido



Fault tolerance
Namenode Backupnode

El namenode releva los bloques perdidos y los recupera de
los nodos sanos, manteniendo el nivel de replicacion

Datanode Datanode Datanode


Escalamiento horizontal
dinamico y rebalanceo
Namenode Backupnode

Se agrega un nuevo
datanode al cluster



Escalamiento horizontal
dinamico y rebalanceo
Namenode Backupnode

El namenode rebalancea el nuevo cluster,
removiendo las copias extras que no se necesitan



Map/Reduce
• Paradigma de programación distribuida
• Basada en un paper de Google (http://bit.ly/
gXZbsk)

• Modelada a partir de las ideas de programación
funcional
• Distribuible en N nodos
• map() -> reduce()
• La etapa de reduce se inicia cuando todos los
mappers terminan.


Map/Reduce

• Dos pasos secuenciales
• Map: Toma todas las lineas de un
input, y por cada una, las procesa y
devuelve un par de key valor

• Reduce: Recibe secuencialmente un
key valor, los procesa y emite un
resultado (ej: otro k-v)


wc.py
M/R: WC en Python
import hadoopy ** usando el
modulo Hadoopy
para usar python
def mapper(key, value):
con Hadoop!
for word in value.split():
yield word, 1

def reducer(key, values):
accum = 0
for count in values:
accum += int(count)
yield key, accum

if __name__ == "__main__":
hadoopy.run(mapper, reducer, doc=__doc__)
Probandolo localmente!
$ echo "a b a a b c" | python wc.py map | sort | python wc.py
reduce
a 3
b 2
c 1

Ejemplo: wordcount
{‘foo’:12,
<arch1.part1> mapper ‘bar’:13,
‘baz’:19}
{‘foo’:[12,33,1,55]}
count()
Reducer

sum()
{‘foo’:33,
<arch1.part2> mapper ‘bar’:23,
‘baz’:42} {‘bar’:[13,23,0,43]}
count() Ordenar
{‘foo’:101,
Muchos y Reducer ‘bar’:79,
archivos agrupar ‘baz’:218}
por key sum()
{‘foo’:1,
<arch2.parte1> mapper ‘bar’:0,
‘baz’:99}
{‘baz’:[19,42,99,65]}
count()
Reducer

sum()
{‘foo’:55,
<arch2.parte2> mapper ‘bar’:43,
‘baz’:65}
count()


M/R en Hadoop
• Las tareas de M/R son entregadas como un “job”
• Los “jobs” se asignan a una cola especiﬁca de
trabajo

• Los jobs son “rack-aware”: aprovecharse del
“data locality”
• Cada “job” es divido en N “tasks”
• Streaming: No usar Java para M/R
• Las tareas que fallen son reiniciadas
automaticamente.


Esquema conceptual
Cliente M/R
Cliente M/R Jobtracker
Cliente M/R

TaskTracker TaskTracker TaskTracker TaskTracker

Datos temporales en HDFS

Fase inicial
Envia jobs
Cliente M/R
Cliente M/R

Los maps() son asignados a los TaskTracker
Cada mapper es (teniendo en cuenta la localidad de la data)
ejecutado en una
JVM

mapper mapper mapper mapper

Lee los archivos de input y graba los archivos intermedios


Fase reduce
Envia jobs
Envia “jobs”
Cliente M/R
Cliente M/R

Comienza la fase de Reduce

reducer reducer reducer reducer

Lee los archivos temporales y graba los resultados


M/R: Implementación
• M/R es excelente para los problemas
donde los ‘sub-problemas’ no son
interdepientes

• Nada se comparte entre mappers y
reducers, ni siquiera si corren en el
mismo nodo

• X ej: La salida de un mapper no puede
depender de la salida o comunicación con
otro mapper


HBASE
• Key/Value store montado sobre HDFS
• Rapido (Finalmente!)
• Soporta range scan de keys
• Soporta nocion de tablas, pero usando
column families para agrupar
columnas

• Soporta M/R sobre las tablas


HBASE no es
• Un reemplazo de un RDBMS
• Un reemplazo de un datawarehouse
• No Joins, no query engine, no datatypes, no sql
• No acid
• No Schema
• No es excelente para guardar datos pequeños
• No es excelente para almacenar grandes datos
binarios


HBASE es
• Excelente para escrituras rapidas/streaming
• Tolerante a fallos
• Buena escalando horizontalmente de manera lineal
• Eficiente manejando billones de filas y millones de
columnas

• Buena manteniendo la historia de una fila
• Autobalance
• Excelente para data no normalizada
• Un complemento excelente entre la RDBMS y el
Datawarehouse (Hadoop)


HBASE
• Escrito en Java
• Almacenamiento orientado a columnas =
schemas ﬂexibles

• Se puede alterar el schema simplemente
agregando el nombre de la columna.
• No hay migraciones de schema!
• Cada columna tiene un timestamp asociado
• La misma columna con el timestamp más
reciente gana


Hive
• Simula datos estructurados usando
archivos en HDFS

• HiveQL: Query language similar a SQL
• Traduce HiveQL a Map/Reduce
• O sea: No es realtime, no reemplaza
RDBMS

• Auto-particionado


Ejemplo de Hive
hive> select key, count(1) from kv1 where key > 100 group by
key;

vs.

$ cat > /tmp/reducer.sh
uniq -c | awk '{print $2"t"$1}‘

$ cat > /tmp/map.sh
awk -F '001' '{if($1 > 100) print $1}‘

$ bin/hadoop jar contrib/hadoop-0.19.2-dev-streaming.jar -
input /user/hive/warehouse/kv1 -mapper map.sh -file /tmp/
reducer.sh -file /tmp/map.sh -reducer reducer.sh -output /tmp/
largekey -numReduceTasks 1

$ bin/hadoop dfs –cat /tmp/largekey/part*


Otros componentes
Libreria para
implementar machine
learning sobre hadoop
Zookeeper: Servicio que mantiene
un K-V store consistente usando N
nodos. Se usa para coordinar
servicios distribuidos

HUE: Hadoop User Experience.
Una linda WEB-UI sobre Hadoop.


En Smowtion?
• 250.000.000 de hits x dia
• Solucion con PHP + MySQL =
• Lo reemplazamos por algo asi:


Cómo seguir?

• Cloudera.com
• Cloudera.com
• Hadoop.apache.org
• IRC: #hadoop en freenode.org
• http://developer.yahoo.com/hadoop/
tutorial/


Gracias!

• Twitter: @ezegolub
• egolub@smowtion.com
• http://www.linkedin.com/in/ezegolub


Trabajá en Smowtion

• Estamos buscando perﬁles tecnicos
(Developers/SysAdmins)
• Nos gustan los problemas diﬁciles
• Nos gustan las tecnologias nuevas
• Buen ambiente de trabajo y todo eso
• jobs@smowtion.com


Hadoop barcamp 2011

Recomendados

Recomendados

Más contenido relacionado

Similar a Hadoop barcamp 2011

Similar a Hadoop barcamp 2011 (20)

Último

Último (15)

Hadoop barcamp 2011