Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho

Técnicas de Inyección / Extracción de Datos en #BigData
+
Técnicas Drag & Drop en Apache Cassandra
@javituiter
www.franciscojavierpulido.com
@exploradata
www.exploradata.com

Sobre mí
Graduado en
Ingeniera del
Software
Master en
Sistemas en
Ingeniería de la
Información
Big Data Specialist
www.ExploraData.com
Bloguero
&
Tuitero

ExploraBrand: Marketing Digital
www.explorabrand.com

Inyección/Extracción
de Datos en #BigData

Inyección / Extracción de datos en #BigData

Inyección/Extracción
de Datos
en Cassandra

Inyección / Extración de datos en Cassandra
Comando COPY

Comando COPY
- Desarrollar desde 0 un programa para lanzar múltiples
instancias del comando (secuencialmente, ya que
paralelamente estaba sujeto a errores de
concurrencia)
- Paralelizable en varios nodos manualmente
- Limitado a 500.000 registros por hilo/lanzamiento

Apache Sqoop
· Relacional
· NoSQL
· Relacional
· NoSQL
Hadoop

Apache Flume
- Herramienta exclusiva para la etapa de
Obtención de datos
- Source
- Channel
- Sink
- Interceptor

Apache Flume
Channel 1
Channel N
Source 1
.
.
.
.
.
.
Source 2
Sink 1
Sink 2

Apache Flume

Apache Flume
+ Sink a Cassandra
Personalizado
http
://www.treselle.com/blog/flume-with-cassandra-integration

DataStax: SSTableLoader

Técnicas Drag&Drop
en Cassandra

Técnicas Drag&Drop en Cassandra
ETL
• Extraer, Transformar y Cargar (Load). En definitiva:
• Extraer datos de múltiples fuentes
• Aplicar calidad y consistencia (limpiar) a los datos
• Conformar (unificar) los datos
• Cargar los datos en un DW
• La idea de Flujo.
• Actividad inicial y con ejecución periódica/programable.
• Herramientas: Talend, JasperSoft, Pentaho Data Integration

Pentaho Data Integration
• PDI es un set de herramientas, que permite diseñar ETLs, mediante
transformaciones y trabajos que pueden ser ejecutadas por las herramientas
de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
• Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
• Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer,
manipular y escribir desde y en distintos orígenes de datos.
• Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos
trabajos son planificados en modo batch para ejecutar automáticamente a periodos
regulares (crontab -e).

Conectores Big Data en PDI
• En PDI tenemos múltiples conectores para sistemas Big Data:
• AVRO
• Cassandra
• CouchDB
• Hadoop
• Hbase
• Map Reduce
• MongoDB

Cassandra en PDI
• Tenemos tres tipos de “pasos” para Apache Cassandra:
• Cassandra Input: se utiliza para realizar lecturas
• Cassandra Output: se utiliza para realizar escrituras
• SSTable Output: se utiliza para volcar a una SSTable de Cassandra.
• Requisitos:
• Apache Cassandra 1.2.X
• PDI 5.0.1 Stable
• Librerías oficiales de Apache Cassandra para PDI
• Limitaciones:
• Los “pasos” funcionan correctamente con hasta 500K registros

Cassandra Input

Cassandra Output

SSTable Output
* Este paso necesita ser ejecutado siempre en un nodo de Cassandra.

?
¿ Dudas ?
@javituiter
www.franciscojavierpulido.com
@exploradata
www.exploradata.com

Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho

Recomendados

Recomendados

Más contenido relacionado

Similar a Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho

Similar a Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho (20)

Más de Stratebi

Más de Stratebi (20)

Último

Último (20)

Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho