Posadev 2018 - Distributing shirts data (ES)

•

0 recomendaciones•22 vistas

Este documento describe cómo una compañía llamada Scalable Press utiliza grandes cantidades de datos y tecnología para reinventar la industria de la imprenta. Generan terabytes de datos diariamente de más de 5 mil millones de productos impresos, y usan motores de búsqueda en tiempo real para permitir que los usuarios encuentren fácilmente los productos que buscan entre su enorme catálogo.

Ingeniería

Distribuyendo
Playeras y Datos
Alex Escobedo

Agenda
• Introducción

• Generación de Datos

• Caso de Estudio - Motor de búsqueda en tiempo real

Introducción
Scalable Press
esta utilizando la
tecnologia para
reinventar la
industria de la
imprenta

Desde bordados,
playeras, fundas de
celulares o posters,
producimos millones
de productos a los
más de 100 millones
de usuarios que nos
visitan anualmente

Generación de Datos
Nuestras impresoras
generan tanta
información que
tenemos servidores
en cada almacén para
guardar los cúmulos
de datos que se
generan diariamente

Contamos con más
de 5 mil millones
(5,000,000,000) de
productos, resultado
de la combinación
de diferentes
productos, diseños
y colores

Ofrecer imágenes para tantas
combinaciones no es nada
sencillo, necesitamos ofrecer
la posibilidad de ver todos
los productos, en todas las
con
fi
guraciones posibles

Caso de estudio -
Motor de búsqueda en
tiempo real

Como sitio de e-commerce, debemos ofrecer la
posibilidad de buscar cualquier producto de (forma
rápida) entre nuestro enorme catalogo de productos

http://bigocheatsheet.com/
O(n) = 5,000,000,000 O(log n) = 32~

SELECT *

FROM campaigns

WHERE description LIKE “%cor%”
Búsqueda de texto sencilla ->
Campañas cuya descripcion es
como ‘cor’
cor -> corgi
Corgis are the best dog breed.

cor, org, rgi, gis, is , s a, …
Corgis are the best dog breed.
Búsqueda de texto completo: Encuentra rápidamente las instancias de un termino

http://fc03.deviantart.net/fs70/f/2010/322/8/b/greyscale_by_nautishko-d333fgc.png

23 million documents, pagination
Cambio a lectura de disco
Todo a la par
Queries tardadas

${ "_id" : ObjectId("58bbf20a944c785bed9c8729"), "url" : "corgi", "duration" : 24, "description" : "<div>Best dogs ever</div>", "title" : "Corgi dog” } { "_id" : ObjectId("58bbf20a944c785bed9c8729"), "url" : "corgi", "duration" : 24, "description" : "<div>Best breed ever</div>”, "title" : "Corgi dog” } Update$

*image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con
fl
uent

¿Qué problemas estamos
tratando de resolver?
• Actualización de datos a otros servicios en ‘tiempo real’

• Reducir dependencia de ‘cron’

• Creación de plataforma de analytics

¿Qué proponemos?
Mejorar nuestra arquitectura de forma que:

• Sirva como punto central, capaz de distribuir datos a
todas las plataformas y servicios nuevos que lo requieran

• Sea tolerante a fallos

• Soporte tareas asíncronas

• Sea escalable

• Capaces de manejar
nuestra propia
infraestructura

• Política de retención es
mas con
fi
gurable

• Comunidad Open Source

• Podemos optimizar
nuestra arquitectura en
base a costos en lugar de
tener un costo
fi
jo
(ejemplo 0.01$ por
mensaje procesado)

$"ts" : Timestamp(1395663575, 1), "h" : NumberLong("-5872498803080442915"), "v" : 2, "op" : "i", "ns" : "sl-table.campaigns", "o" : { "_id" : ObjectId("533022d70d7e2c31d4490d22"), "url" : "corgi", "description" : “best dog ever” } }$

Más contenido relacionado

Similar a Posadev 2018 - Distributing shirts data (ES)

Brochure AFL EspanolAFL International USA - Colombia

Transformación Digital en clave Cloud, ALM y DevOpsatSistemas

Cosmos DB + Azure Functions- Cloud Lunch and Learn Marathon .pptxLuis Beltran

Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScriptDiego López-de-Ipiña González-de-Artaza

Keepler Data Tech | The cloud data driven partnerKeepler Data Tech

Azure Realtime analytics: Análisis de datos en tiempo realSoftware Guru

Cloud BurstingAdam Datacenter

Proyecto IntegradorOmar Estevez

Symfony y 3 millones de usuarios, nuestro dia a diaJordi Llonch

JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxIT-NOVA

Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez

Power BI. Dando el salto a la nube con los pies en el sueloSolidQ

Innovation Track AWS Cloud Experience Argentina - Novedades de Distribución d...Amazon Web Services LATAM

2017 Qnap company profileQNAP Systems, Inc.

Descubriendo windows azureJavier Suárez Ruiz

Power pivotadriehz

Power BI para desarrolladores netcoreconfAntonio Soto

SQL Server 2014 y La Plataforma de DatosJoseph Lopez

Sql server 2014 y la plataforma de datosSpanishPASSVC

IT Nova - Jaspersoft Versión 9.0 Webinario IT-NOVA

Similar a Posadev 2018 - Distributing shirts data (ES) (20)

Brochure AFL Espanol

Transformación Digital en clave Cloud, ALM y DevOps

Cosmos DB + Azure Functions- Cloud Lunch and Learn Marathon .pptx

Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript

Keepler Data Tech | The cloud data driven partner

Azure Realtime analytics: Análisis de datos en tiempo real

Cloud Bursting

Proyecto Integrador

Symfony y 3 millones de usuarios, nuestro dia a dia

JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx

Introducción a Microsoft Azure SQL Data Warehouse

Power BI. Dando el salto a la nube con los pies en el suelo

Innovation Track AWS Cloud Experience Argentina - Novedades de Distribución d...

2017 Qnap company profile

Descubriendo windows azure

Power pivot

Power BI para desarrolladores netcoreconf

SQL Server 2014 y La Plataforma de Datos

Sql server 2014 y la plataforma de datos

IT Nova - Jaspersoft Versión 9.0 Webinario

Último

PRESENTACION DE LAS PLAGAS Y ENFERMEDADES DEL PALTOwillanpedrazaperez

Sistema de lubricación para motores de combustión internamengual57

27311861-Cuencas-sedimentarias-en-Colombia.pptjacnuevarisaralda22

ESPECIFICACIONES TECNICAS COMPLEJO DEPORTIVOeldermishti

Resistencia-a-los-antimicrobianos--laboratorio-al-cuidado-del-paciente_Marcel...GuillermoRodriguez239462

ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZgustavoiashalom

Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEduardoBriones22

Mecatronica Automotriz .pdfleonardocahua1

Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheElisaLen4

“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...WeslinDarguinHernand

Six Sigma Process and the dmaic metodo processbarom

Clasificación de Equipos e Instrumentos en Electricidad.docxwilliam801689

2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdfDavidTicona31

TAIICHI OHNO, historia, obras, reconocimientoscuentaparainvestigac

SESION 02-DENSIDAD DE POBLACION Y DEMANDA DE AGUA (19-03-2024).pdfJorgeFuertes8

INSUMOS QUIMICOS Y BIENES FISCALIZADOS POR LA SUNATevercoyla

Análisis de Costos y Presupuestos CAPECOFernando Bravo

Presentacion de la ganaderia en la regiónmaz12629

Matrices Matemáticos universitario pptxNancyJulcasumaran

Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptNombre Apellidos

Posadev 2018 - Distributing shirts data (ES)

1. Distribuyendo Playeras y Datos Alex Escobedo

2. Agenda • Introducción • Generación de Datos • Caso de Estudio - Motor de búsqueda en tiempo real

3. Introducción Scalable Press esta utilizando la tecnologia para reinventar la industria de la imprenta

4. Desde bordados, playeras, fundas de celulares o posters, producimos millones de productos a los más de 100 millones de usuarios que nos visitan anualmente

5. Generación de Datos Nuestras impresoras generan tanta información que tenemos servidores en cada almacén para guardar los cúmulos de datos que se generan diariamente

6. Contamos con más de 5 mil millones (5,000,000,000) de productos, resultado de la combinación de diferentes productos, diseños y colores

7. Ofrecer imágenes para tantas combinaciones no es nada sencillo, necesitamos ofrecer la posibilidad de ver todos los productos, en todas las con fi guraciones posibles

8. 2018-12-01 532,000,000~ ->

9. 2018-12-01 30 TB~ ->

10. Caso de estudio - Motor de búsqueda en tiempo real

11. Como sitio de e-commerce, debemos ofrecer la posibilidad de buscar cualquier producto de (forma rápida) entre nuestro enorme catalogo de productos

12.

13.

14. http://bigocheatsheet.com/ O(n) = 5,000,000,000 O(log n) = 32~

15. SELECT * FROM campaigns WHERE description LIKE “%cor%” Búsqueda de texto sencilla -> Campañas cuya descripcion es como ‘cor’ cor -> corgi Corgis are the best dog breed.

16.

17. cor, org, rgi, gis, is , s a, … Corgis are the best dog breed. Búsqueda de texto completo: Encuentra rápidamente las instancias de un termino

18. http://fc03.deviantart.net/fs70/f/2010/322/8/b/greyscale_by_nautishko-d333fgc.png

19. 23 million documents, pagination Cambio a lectura de disco Todo a la par Queries tardadas

20. Mongo Aggregation

21.

22.

23. { "_id" : ObjectId("58bbf20a944c785bed9c8729"), "url" : "corgi", "duration" : 24, "description" : "<div>Best dogs ever</div>", "title" : "Corgi dog” } { "_id" : ObjectId("58bbf20a944c785bed9c8729"), "url" : "corgi", "duration" : 24, "description" : "<div>Best breed ever</div>”, "title" : "Corgi dog” } Update

24. *image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con fl uent

25. ¿Qué problemas estamos tratando de resolver? • Actualización de datos a otros servicios en ‘tiempo real’ • Reducir dependencia de ‘cron’ • Creación de plataforma de analytics

26. *image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con fl uent

27. ¿Qué proponemos? Mejorar nuestra arquitectura de forma que: • Sirva como punto central, capaz de distribuir datos a todas las plataformas y servicios nuevos que lo requieran • Sea tolerante a fallos • Soporte tareas asíncronas • Sea escalable

28.

29. • Capaces de manejar nuestra propia infraestructura • Política de retención es mas con fi gurable • Comunidad Open Source • Podemos optimizar nuestra arquitectura en base a costos en lugar de tener un costo fi jo (ejemplo 0.01$ por mensaje procesado)

30. *image from Introduction To Streaming Data and Stream Processing with Apache Kafka - Con fl uent

31.

32.

33. "ts" : Timestamp(1395663575, 1), "h" : NumberLong("-5872498803080442915"), "v" : 2, "op" : "i", "ns" : "sl-table.campaigns", "o" : { "_id" : ObjectId("533022d70d7e2c31d4490d22"), "url" : "corgi", "description" : “best dog ever” } }

34. "ts" : Timestamp(1395663575, 1), "h" : NumberLong("-5872498803080442915"), "v" : 2, "op" : "i", "ns" : "sl-table.campaigns", "o" : { "_id" : ObjectId("533022d70d7e2c31d4490d22"), "url" : "corgi", "description" : “best dog ever” } }

35.

36. Diagrama de arquitectura

37. Preguntas

Posadev 2018 - Distributing shirts data (ES)

Recomendados

Recomendados

Más contenido relacionado

Similar a Posadev 2018 - Distributing shirts data (ES)

Similar a Posadev 2018 - Distributing shirts data (ES) (20)

Último

Último (20)

Posadev 2018 - Distributing shirts data (ES)