Este documento describe cómo una compañía llamada Scalable Press utiliza grandes cantidades de datos y tecnología para reinventar la industria de la imprenta. Generan terabytes de datos diariamente de más de 5 mil millones de productos impresos, y usan motores de búsqueda en tiempo real para permitir que los usuarios encuentren fácilmente los productos que buscan entre su enorme catálogo.
4. Desde bordados,
playeras, fundas de
celulares o posters,
producimos millones
de productos a los
más de 100 millones
de usuarios que nos
visitan anualmente
5. Generación de Datos
Nuestras impresoras
generan tanta
información que
tenemos servidores
en cada almacén para
guardar los cúmulos
de datos que se
generan diariamente
6. Contamos con más
de 5 mil millones
(5,000,000,000) de
productos, resultado
de la combinación
de diferentes
productos, diseños
y colores
7. Ofrecer imágenes para tantas
combinaciones no es nada
sencillo, necesitamos ofrecer
la posibilidad de ver todos
los productos, en todas las
con
fi
guraciones posibles
15. SELECT *
FROM campaigns
WHERE description LIKE “%cor%”
Búsqueda de texto sencilla ->
Campañas cuya descripcion es
como ‘cor’
cor -> corgi
Corgis are the best dog breed.
16.
17. cor, org, rgi, gis, is , s a, …
Corgis are the best dog breed.
Búsqueda de texto completo: Encuentra rápidamente las instancias de un termino
24. *image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con
fl
uent
25. ¿Qué problemas estamos
tratando de resolver?
• Actualización de datos a otros servicios en ‘tiempo real’
• Reducir dependencia de ‘cron’
• Creación de plataforma de analytics
26. *image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con
fl
uent
27. ¿Qué proponemos?
Mejorar nuestra arquitectura de forma que:
• Sirva como punto central, capaz de distribuir datos a
todas las plataformas y servicios nuevos que lo requieran
• Sea tolerante a fallos
• Soporte tareas asíncronas
• Sea escalable
28.
29. • Capaces de manejar
nuestra propia
infraestructura
• Política de retención es
mas con
fi
gurable
• Comunidad Open Source
• Podemos optimizar
nuestra arquitectura en
base a costos en lugar de
tener un costo
fi
jo
(ejemplo 0.01$ por
mensaje procesado)
30. *image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con
fl
uent