SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Speaker
Gustavo Arjones, CTO Socialmetrix
@arjones | gustavo@socialmetrix.com
Arquitectura de Big Data
Creando una Arquitectura Moderna para
Big Data Analytics
Quién soy?
GUSTAVO ARJONES, CTO
•  Lic. Ciencia Computación
•  MBA Marketing
•  2008 startup de Analytics à Big Data
•  Brasileño
Porqué una arquitectura de Big Data?
•  Dashboards
•  Históricos (big joins)
•  Modelos Predictivos
•  Consumo/Análise Realtime
•  Streams
•  …
Nuevos paradigmas
Necesitamos una nueva forma de
pensar los datos, los procesos y la
arquitectura
Características esperadas de la plataforma
•  Simple de pensar (ê sistemas, ê tecnologias)
•  Escalable (~linear) y Mantenible
•  Fault-Tolerance: Sistemas y Humanos
•  Soportar Dashboards y Exploración de Datos
•  Soportar operaciones batch y near-realtime*
Simple de Pensar
Simple de Pensar
Escalable
•  Más workload se resuelve con más servers (partition)
•  Más datos se almacenan en más servers
Fault-Tolerant
•  Job no se interrumpe por
la falla de hardware
•  Podemos recuperarnos
de errores humanos!
Soportar Exploración de Datos
•  Herramientas que permitan Data Scientists “jugar”
con los datos
•  Fácil acceso a datos
•  Integración con otros data-sources (conectores, file
formats, etc)
•  Soporte a algoritimos de Machine Learning
•  Soporte a lenguajes conocidos: R, SQL, Python …
Conceptos asociados a
estas características
Immutability / Append Only
•  No hay estado compartido
=
•  No es necesario locking
=
•  Jobs Paralelizables!!!
Events / Facts
•  Hechos aislados y atomicos
•  Verdad en un momento determinado
•  When?
•  What?
•  Who?
•  How?
Data Schemas
•  Enforcement de tipos de datos y constrains
•  Ser/Deserialize +rápido y +seguro (comparado a
JSON)
•  Clara evolución de los Datos (versioning)
Messaging Bus de Eventos … (Event Sourcing)
•  Paralelizar procesamiento
•  Posibilidad de reprocesamiento (errores, new features)
•  Aislamento, Particionado, Escalabilidad
Source of Truth
•  Almacenar toda la
información cruda (HDFS, S3)
•  Permite reprocesamiento y
evolución de métricas
•  Redundante a falla
humana
Materialized Views para Métricas Conocidas
•  Generar Materialized Views con las métricas que YA
SABEMOS que necesitamos
•  Views se guardan en datastore escalable y fast-read
Mezclando Todo
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
/event/2015/04/30/19/35/	
  
Processing	
  (filter,	
  group,	
  sum,	
  …)	
  
Views	
   Search	
   Cache	
  
Apache	
  Log	
  Lines	
  
Apache	
  Log	
  Lines	
  
Page	
  Views	
  
Unique	
  Users	
  
Page	
  Title	
  
Page	
  Content	
  
Key	
  Metrics	
  
Web Analytics (ie: G. Analytics)
/event/2015/04/30/19/35/	
  
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
Processing	
  (filter,	
  group,	
  sum,	
  …)	
  
Views	
   Search	
   Cache	
  
ReporRng	
  
UI	
  
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
Processing	
  (filter,	
  group,	
  sum,	
  …)	
  
Views	
   Search	
   Cache	
  
Análise	
  
Exploratoria	
  
/event/2015/04/30/19/35/	
  
Evn	
   Ev3	
  …	
   Ev2	
   Ev1	
   Messaging	
  Bus	
  
HDFS	
  
Processing	
  (filter,	
  group,	
  sum,	
  …)	
  
Views	
   Search	
   Cache	
  
/event/2015/04/30/19/35/	
  
Principales Tecnologías
•  Data Schema: Apache Avro
•  Message Bus: Apache Kafka
•  Storage: Amazon S3 (o HDFS)
•  Processing: Apache Spark + Spark Streaming
•  Data Store:
–  Apache Cassandra
–  ElasticSearch (o Apache Solr)
–  Redis
REFERENCIAS
http://arjon.es/2015/04/30/big-
data-architecture-reading-list/
__
¡Muchas Gracias! Obrigado!
Gustavo Arjones, CTO
@arjones | gustavo@socialmetrix.com

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Parallel Programming
Parallel ProgrammingParallel Programming
Parallel Programming
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
 
Que es azure sql datawarehouse
Que es azure sql datawarehouseQue es azure sql datawarehouse
Que es azure sql datawarehouse
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Hadoop
HadoopHadoop
Hadoop
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Azure Databricks
Azure DatabricksAzure Databricks
Azure Databricks
 
BI real time analytics
BI real time analyticsBI real time analytics
BI real time analytics
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkTaller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
 
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraCassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
 
Machine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuidoMachine learning usando Weka, en un entorno de cómputo distribuido
Machine learning usando Weka, en un entorno de cómputo distribuido
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGAzure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIG
 
Azure Data Lake
Azure Data LakeAzure Data Lake
Azure Data Lake
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
BI en Sql Server 2014
BI en Sql Server 2014BI en Sql Server 2014
BI en Sql Server 2014
 

Similar a ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics

Similar a ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics (20)

Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 
Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Microsoft Data & AI Experience LATAM 2018 - Azure Cosmos DB
Microsoft Data & AI Experience LATAM 2018 - Azure Cosmos DBMicrosoft Data & AI Experience LATAM 2018 - Azure Cosmos DB
Microsoft Data & AI Experience LATAM 2018 - Azure Cosmos DB
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Curso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceCurso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligence
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 

Último

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 

Último (11)

Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 

ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics

  • 1. Speaker Gustavo Arjones, CTO Socialmetrix @arjones | gustavo@socialmetrix.com Arquitectura de Big Data Creando una Arquitectura Moderna para Big Data Analytics
  • 2. Quién soy? GUSTAVO ARJONES, CTO •  Lic. Ciencia Computación •  MBA Marketing •  2008 startup de Analytics à Big Data •  Brasileño
  • 3. Porqué una arquitectura de Big Data? •  Dashboards •  Históricos (big joins) •  Modelos Predictivos •  Consumo/Análise Realtime •  Streams •  …
  • 5. Necesitamos una nueva forma de pensar los datos, los procesos y la arquitectura
  • 6. Características esperadas de la plataforma •  Simple de pensar (ê sistemas, ê tecnologias) •  Escalable (~linear) y Mantenible •  Fault-Tolerance: Sistemas y Humanos •  Soportar Dashboards y Exploración de Datos •  Soportar operaciones batch y near-realtime*
  • 9. Escalable •  Más workload se resuelve con más servers (partition) •  Más datos se almacenan en más servers
  • 10. Fault-Tolerant •  Job no se interrumpe por la falla de hardware •  Podemos recuperarnos de errores humanos!
  • 11. Soportar Exploración de Datos •  Herramientas que permitan Data Scientists “jugar” con los datos •  Fácil acceso a datos •  Integración con otros data-sources (conectores, file formats, etc) •  Soporte a algoritimos de Machine Learning •  Soporte a lenguajes conocidos: R, SQL, Python …
  • 12. Conceptos asociados a estas características
  • 13. Immutability / Append Only •  No hay estado compartido = •  No es necesario locking = •  Jobs Paralelizables!!!
  • 14. Events / Facts •  Hechos aislados y atomicos •  Verdad en un momento determinado •  When? •  What? •  Who? •  How?
  • 15. Data Schemas •  Enforcement de tipos de datos y constrains •  Ser/Deserialize +rápido y +seguro (comparado a JSON) •  Clara evolución de los Datos (versioning)
  • 16. Messaging Bus de Eventos … (Event Sourcing) •  Paralelizar procesamiento •  Posibilidad de reprocesamiento (errores, new features) •  Aislamento, Particionado, Escalabilidad
  • 17. Source of Truth •  Almacenar toda la información cruda (HDFS, S3) •  Permite reprocesamiento y evolución de métricas •  Redundante a falla humana
  • 18. Materialized Views para Métricas Conocidas •  Generar Materialized Views con las métricas que YA SABEMOS que necesitamos •  Views se guardan en datastore escalable y fast-read
  • 20. Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   /event/2015/04/30/19/35/   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   Apache  Log  Lines   Apache  Log  Lines   Page  Views   Unique  Users   Page  Title   Page  Content   Key  Metrics   Web Analytics (ie: G. Analytics)
  • 21. /event/2015/04/30/19/35/   Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   ReporRng   UI  
  • 22. Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   Análise   Exploratoria   /event/2015/04/30/19/35/  
  • 23. Evn   Ev3  …   Ev2   Ev1   Messaging  Bus   HDFS   Processing  (filter,  group,  sum,  …)   Views   Search   Cache   /event/2015/04/30/19/35/  
  • 24. Principales Tecnologías •  Data Schema: Apache Avro •  Message Bus: Apache Kafka •  Storage: Amazon S3 (o HDFS) •  Processing: Apache Spark + Spark Streaming •  Data Store: –  Apache Cassandra –  ElasticSearch (o Apache Solr) –  Redis
  • 26. __ ¡Muchas Gracias! Obrigado! Gustavo Arjones, CTO @arjones | gustavo@socialmetrix.com