SlideShare una empresa de Scribd logo
1 de 27
Técnicas de Inyección / Extracción de Datos en #BigData 
+ 
Técnicas Drag & Drop en Apache Cassandra 
@javituiter 
www.franciscojavierpulido.com 
@exploradata 
www.exploradata.com
Sobre mí 
Graduado en 
Ingeniera del 
Software 
Master en 
Sistemas en 
Ingeniería de la 
Información 
Big Data Specialist 
www.ExploraData.com 
Bloguero 
& 
Tuitero
ExploraBrand: Marketing Digital 
www.explorabrand.com
Inyección/Extracción 
de Datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección/Extracción 
de Datos 
en Cassandra
Inyección / Extración de datos en Cassandra 
Comando COPY
Inyección / Extración de datos en Cassandra 
Comando COPY 
- Desarrollar desde 0 un programa para lanzar múltiples 
instancias del comando (secuencialmente, ya que 
paralelamente estaba sujeto a errores de 
concurrencia) 
- Paralelizable en varios nodos manualmente 
- Limitado a 500.000 registros por hilo/lanzamiento
Inyección / Extración de datos en Cassandra 
Apache Sqoop 
· Relacional 
· NoSQL 
· Relacional 
· NoSQL 
Hadoop
Inyección / Extración de datos en Cassandra 
Apache Flume 
- Herramienta exclusiva para la etapa de 
Obtención de datos 
- Source 
- Channel 
- Sink 
- Interceptor
Inyección / Extración de datos en Cassandra 
Apache Flume 
Channel 1 
Channel N 
Source 1 
. 
. 
. 
. 
. 
. 
Source 2 
Sink 1 
Sink 2
Inyección / Extración de datos en Cassandra 
Apache Flume
Inyección / Extración de datos en Cassandra 
Apache Flume 
+ Sink a Cassandra 
Personalizado 
http 
://www.treselle.com/blog/flume-with-cassandra-integration
Inyección / Extración de datos en Cassandra 
DataStax: SSTableLoader
Técnicas Drag&Drop 
en Cassandra
Técnicas Drag&Drop en Cassandra 
ETL 
• Extraer, Transformar y Cargar (Load). En definitiva: 
• Extraer datos de múltiples fuentes 
• Aplicar calidad y consistencia (limpiar) a los datos 
• Conformar (unificar) los datos 
• Cargar los datos en un DW 
• La idea de Flujo. 
• Actividad inicial y con ejecución periódica/programable. 
• Herramientas: Talend, JasperSoft, Pentaho Data Integration
Técnicas Drag&Drop en Cassandra 
Pentaho Data Integration 
• PDI es un set de herramientas, que permite diseñar ETLs, mediante 
transformaciones y trabajos que pueden ser ejecutadas por las herramientas 
de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. 
• Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. 
• Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, 
manipular y escribir desde y en distintos orígenes de datos. 
• Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos 
trabajos son planificados en modo batch para ejecutar automáticamente a periodos 
regulares (crontab -e).
Técnicas Drag&Drop en Cassandra
Técnicas Drag&Drop en Cassandra 
Conectores Big Data en PDI 
• En PDI tenemos múltiples conectores para sistemas Big Data: 
• AVRO 
• Cassandra 
• CouchDB 
• Hadoop 
• Hbase 
• Map Reduce 
• MongoDB
Técnicas Drag&Drop en Cassandra 
Cassandra en PDI 
• Tenemos tres tipos de “pasos” para Apache Cassandra: 
• Cassandra Input: se utiliza para realizar lecturas 
• Cassandra Output: se utiliza para realizar escrituras 
• SSTable Output: se utiliza para volcar a una SSTable de Cassandra. 
• Requisitos: 
• Apache Cassandra 1.2.X 
• PDI 5.0.1 Stable 
• Librerías oficiales de Apache Cassandra para PDI 
• Limitaciones: 
• Los “pasos” funcionan correctamente con hasta 500K registros
Técnicas Drag&Drop en Cassandra 
Cassandra Input
Técnicas Drag&Drop en Cassandra 
Cassandra Output
Técnicas Drag&Drop en Cassandra 
SSTable Output 
* Este paso necesita ser ejecutado siempre en un nodo de Cassandra.
PDI en Acción
? 
¿ Dudas ? 
@javituiter 
www.franciscojavierpulido.com 
@exploradata 
www.exploradata.com

Más contenido relacionado

Similar a Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho

Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraCassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraFrancisco Javier Pulido Piñero
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache SparkSocialmetrix
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoBig Data Spain
 
Analitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataAnalitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataJosé Carlos García Serrano
 
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...Daniel Briian
 
Presentación omega peripherals
Presentación omega peripheralsPresentación omega peripherals
Presentación omega peripheralsOmega Peripherals
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Cloud Computing: Algoritmos en la Nube
Cloud Computing: Algoritmos en la NubeCloud Computing: Algoritmos en la Nube
Cloud Computing: Algoritmos en la NubeDavid J. Brenes
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSAmazon Web Services LATAM
 

Similar a Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho (20)

Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraCassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Analitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataAnalitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big data
 
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
Instalacion,Configuracion y Creacion de Una Base de Datos en Apache Cassandra...
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Presentación omega peripherals
Presentación omega peripheralsPresentación omega peripherals
Presentación omega peripherals
 
Polybase
PolybasePolybase
Polybase
 
Cloud Computing: Algoritmos en la Nube
Cloud Computing: Algoritmos en la NubeCloud Computing: Algoritmos en la Nube
Cloud Computing: Algoritmos en la Nube
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
Mejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWSMejores prácticas para migrar sus bases de datos a AWS
Mejores prácticas para migrar sus bases de datos a AWS
 
Arquitectura Lambda
Arquitectura LambdaArquitectura Lambda
Arquitectura Lambda
 

Más de Stratebi

Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentesStratebi
 
Azure Synapse
Azure SynapseAzure Synapse
Azure SynapseStratebi
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with PythonStratebi
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with PythonStratebi
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasStratebi
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup SpainStratebi
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)Stratebi
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integrationStratebi
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data MarketingStratebi
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works Stratebi
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data AnalyticsStratebi
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosStratebi
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports AnalyticsStratebi
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme AnalysisStratebi
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIStratebi
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overviewStratebi
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalleStratebi
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con TalendStratebi
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend IntroducionStratebi
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent AnalyticsStratebi
 

Más de Stratebi (20)

Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integration
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data Marketing
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y Cursos
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBI
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend Introducion
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 

Último

Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfeluniversocom
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxYamile Divina Acevedo
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionJosueVallejo10
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSLuisDavidGarciaInga2
 

Último (20)

Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptx
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacion
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
 

Técnicas de Inyección y Extracción de Datos en Cassandra con Pentaho

  • 1. Técnicas de Inyección / Extracción de Datos en #BigData + Técnicas Drag & Drop en Apache Cassandra @javituiter www.franciscojavierpulido.com @exploradata www.exploradata.com
  • 2. Sobre mí Graduado en Ingeniera del Software Master en Sistemas en Ingeniería de la Información Big Data Specialist www.ExploraData.com Bloguero & Tuitero
  • 3. ExploraBrand: Marketing Digital www.explorabrand.com
  • 5. Inyección / Extracción de datos en #BigData
  • 6. Inyección / Extracción de datos en #BigData
  • 7. Inyección / Extracción de datos en #BigData
  • 9. Inyección / Extración de datos en Cassandra Comando COPY
  • 10. Inyección / Extración de datos en Cassandra Comando COPY - Desarrollar desde 0 un programa para lanzar múltiples instancias del comando (secuencialmente, ya que paralelamente estaba sujeto a errores de concurrencia) - Paralelizable en varios nodos manualmente - Limitado a 500.000 registros por hilo/lanzamiento
  • 11. Inyección / Extración de datos en Cassandra Apache Sqoop · Relacional · NoSQL · Relacional · NoSQL Hadoop
  • 12. Inyección / Extración de datos en Cassandra Apache Flume - Herramienta exclusiva para la etapa de Obtención de datos - Source - Channel - Sink - Interceptor
  • 13. Inyección / Extración de datos en Cassandra Apache Flume Channel 1 Channel N Source 1 . . . . . . Source 2 Sink 1 Sink 2
  • 14. Inyección / Extración de datos en Cassandra Apache Flume
  • 15. Inyección / Extración de datos en Cassandra Apache Flume + Sink a Cassandra Personalizado http ://www.treselle.com/blog/flume-with-cassandra-integration
  • 16. Inyección / Extración de datos en Cassandra DataStax: SSTableLoader
  • 18. Técnicas Drag&Drop en Cassandra ETL • Extraer, Transformar y Cargar (Load). En definitiva: • Extraer datos de múltiples fuentes • Aplicar calidad y consistencia (limpiar) a los datos • Conformar (unificar) los datos • Cargar los datos en un DW • La idea de Flujo. • Actividad inicial y con ejecución periódica/programable. • Herramientas: Talend, JasperSoft, Pentaho Data Integration
  • 19. Técnicas Drag&Drop en Cassandra Pentaho Data Integration • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. • Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. • Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. • Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 21. Técnicas Drag&Drop en Cassandra Conectores Big Data en PDI • En PDI tenemos múltiples conectores para sistemas Big Data: • AVRO • Cassandra • CouchDB • Hadoop • Hbase • Map Reduce • MongoDB
  • 22. Técnicas Drag&Drop en Cassandra Cassandra en PDI • Tenemos tres tipos de “pasos” para Apache Cassandra: • Cassandra Input: se utiliza para realizar lecturas • Cassandra Output: se utiliza para realizar escrituras • SSTable Output: se utiliza para volcar a una SSTable de Cassandra. • Requisitos: • Apache Cassandra 1.2.X • PDI 5.0.1 Stable • Librerías oficiales de Apache Cassandra para PDI • Limitaciones: • Los “pasos” funcionan correctamente con hasta 500K registros
  • 23. Técnicas Drag&Drop en Cassandra Cassandra Input
  • 24. Técnicas Drag&Drop en Cassandra Cassandra Output
  • 25. Técnicas Drag&Drop en Cassandra SSTable Output * Este paso necesita ser ejecutado siempre en un nodo de Cassandra.
  • 27. ? ¿ Dudas ? @javituiter www.franciscojavierpulido.com @exploradata www.exploradata.com