Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
4. Qué es Spark?
Apache Spark™ is a fast and general engine for large-scale
data processing.
• Procesamiento In-memory (preferencialmente)
• Framework de Procesamiento Unificado
• Para Ingenieros & Data Scientists
5. Principales Pilares
Task Scheduler
• Prepara los jobs a traves de DAG (Directed
acyclic graph)
• Enganchan funciones para ejecutar los stages
• Cache-aware; considera data utilización &
localización (data locality)
• Partitioning-aware para reducir shuffles por la
red
RDD (Resilient Distributed Datasets)
• Estructura de datos Immutable (In-memory)
• Tolerante a fallas (Se reama en caso de falla)
• Estructura de datos que puede ser operada en
paralelo
•Rica interfaz de Transformations & Actions
12. Plataforma Unificada
• No es necesario copiar datos/ETL entre sistemas
• Varios tipos de procesamientos en el mismo código
(claridad)
• Reutilización de código (Batch & Realtime)
• Un único sistema para aprender
• Un único sistema para mantener
Big Deal para
Arquitectura Lambda
18. Y más …
• Esfuerzo para estandarización de la plataforma
• Certificación para Distros & Apps gratis
• Material de training gratis
• Databricks levantó $47M
• Databricks Cloud???