SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Pentaho PDI
ETL e Data Integration
Uma abordagem prática para aumento
de produtividade
João G. Gutheil
Set/2016
• Cenários
• Suite Pentaho
• Conceitos
• Explorando o PDI
ETL e Data Integration
ETL e Data Integration
Cenário 1 – Integração de Dados
ERP
S1 S4
S2
S3
S5
Oracle
MongoDB
MySQL
MS SQL Server
Oracle
MS SQL Server
Onde S<id> são sistemas satélites de diversos fornecedores e tecnologias distintas
ETL e Data Integration
Cenário 2 - Migração de Dados
ERP
Instance 2
Oracle
Onde Instance<id> são instancias do ERP para companhias distintas
ERP
Instance 1
Oracle
Situação atual
ERP
Unified 1/2
Situação futura
Oracle
ETLETL
Aprox. 4200 tabelas
ETL e Data Integration
Cenário 3 – Ambiente complexo de BI
SQL Server
Onde Business<id> é uma área de negócio distinta com seu sistema especialista
CRM
Oracle
DW BI
Oracle
DW BI
Oracle
Business
1
Oracle
Business
2
Oracle
Business
3
Oracle
ERP
Oracle
Logística e
transportes
ETL e Data Integration
Cenário 5 - Telefonia
DW
Oracle
Core 1 Core 2 Core 3
Centrais Telefônicas
Registros de
movimentação telefônica
RAW
ETL
FTP0010100010
1000111001
• Extract
• Processo de conexão e extração de
dados e informações de diversas origens (Ex Query)
• Transform
• Operações realizadas sobre a massa de dados
{Limpezas, ajustes, enriquecimento}
• Integração com / entre diferentes formatos e origens
• Load
• Armazenamento em bases de dados/arquivos de destino
• SGBD
• NoSQL
• Flat file/XML
• Webservice
• . . .
ETL e Data Integration
O processo de ETL e DI
ETL e Data Integration
Suite
• Composto por um conjunto de
ferramentas onde cada uma
contempla um aspecto de um
projeto de Business Intelligence
(BI)
• Reporting
• Analysis
• Dashboards
• Data Mining
• Data Integration
ETL e Data Integration
Suite
• Composto por um conjunto de
ferramentas onde cada uma
contempla um aspecto de um
projeto de Business Intelligence
(BI)
• Reporting
• Analysis
• Dashboards
• Data Mining
• Data Integration
Community.pentaho.com
ETL e Data Integration
• Microsoft SSIS
• Talend
• Oracle ODI
• DataStage (IBM)
Ferramentas
• Arquitetura e características
• Multi-Plataforma (Win, Linux, Mac)
• 100% J2EE
• Agilidade e produtividade
• Simplicidade
• Self-Documented
• Aplicação
• Imp/Exp das mais diversas fontes de dados (Ex. Relacional, NoSQL, flat file) e plataformas (Web
Services, JSON)
• Popular Data-Marts, DW/EDW, DV
• Integração e suporte a Big Data (Hadoop, Cassandra, MongoDB, Spark)
• Mitigar ofensores de banco de dados (Cursores, DBLink, Linked Server, querys complexas)
ETL e Data Integration
Overwiew
• Java 1.7/1.8 JRE
• 8 GB
• 10GB HD
• Variáveis de ambiente
ETL e Data Integration
Requisitos
• Spoon: Interface gráfica (spoon.bat)
• Kitchen: Execução de JOB´s a partir de linhas de comando
• Pan: Execução de Transformações desenvolvidas no Spoon, a partir
de linhas de comando
• Carte: Webservice para execução distribuída
ETL e Data Integration
Componentes
• Repositório  Workspace | Projeto
• Job  Orquestrador para execução e controle de sequencias de
transformações
• Transformação  Sequencia de passos (Steps) para manipulação de
dados
• Lookup
• Pivot e Unpivot
• Agregações
• Join, ordenação, Merge
• Step  Bloco de execução de código | Objeto
• Hop  Representação gráfica da conexão/ligação entre os steps
ETL e Data Integration
Arquitetura
JDBC.PROPERTIES
#Oracle
jde/type=javax.sql.DataSource
jde/driver=oracle.jdbc.driver.OracleDriver
jde/url=jdbc:oracle:thin:@//127.0.0.1:1521/service-name
jde/user=
jde/password=
jde/FetchTSWTZasTimestamp=true
#Oracle
jdepp/type=javax.sql.DataSource
jdepp/driver=oracle.jdbc.driver.OracleDriver
jdepp/url=jdbc:oracle:thin:@(DESCRIPTION = (ADDRESS = (PROTOCOL =
TCP)(HOST = 127.0.0.1) (PORT = 1521)) (CONNECT_DATA = (SERVICE_NAME
= <service_name>)))
jdepp/user=
jdepp/password=
jdepp/FetchTSWTZasTimestamp=true
#SQL Server
MS/type=javax.sql.DataSource
MS/driver=com.microsoft.sqlserver.jdbc.SQLServerDriver
MS/url=jdbc:sqlserver://<servidor>;integratedSecurity=false;database
Name=<database_name>;domain=<Domain>
MS/user=
MS/password=
ETL e Data Integration
Métodos de Conexão
Keep it simple!
Pense de forma corporativa
Mas desenvolva de forma departamental
ETL e Data Integration
• Interface
Área de trabalho
Árvore de
Objetos
(steps)
ETL e Data Integration
• Fluxo de desenvolvimento
• Criar/Conectar repositório
• Criar conexão se necessário
• Explorar repositório
• Criar/abrir Transformação/JOB
ETL e Data Integration
http://community.pentaho.com/projects/data-integration/
https://intellipaat.com/interview-question/pentaho-interview-questions/
http://diethardsteiner.blogspot.com.br/
https://code.google.com/archive/p/kettle-cookbook/
ETL e Data Integration
João G. Gutheil jgutheil@gmail.com
Ciência da Computação - Feevale
Especialização em Gestão do Conhecimento e Int. Estratégica - UCS
Analista de TI – AGCO
Analista de TI – Grupo RBS
Vice-Coordenador do GUBI (Grupo de Usuários de BI) – Sucesu RS
Áreas de interesse
Ferramentas de Mineração de Dados
Ferramentas e aplicações de BI
Tecnologias NoSQL e Analytics
Yosemite
Apresentação
2 de 19

Contenu connexe

En vedette

Hybrid & Logical Data Warehouse
Hybrid & Logical Data WarehouseHybrid & Logical Data Warehouse
Hybrid & Logical Data WarehouseHeungsoon Yang
 
Pentaho ETL ハンズオン
Pentaho ETL ハンズオンPentaho ETL ハンズオン
Pentaho ETL ハンズオンTeruo Kawasaki
 
Open Source Reporting Tool Comparison
Open Source Reporting Tool ComparisonOpen Source Reporting Tool Comparison
Open Source Reporting Tool ComparisonRogue Wave Software
 
Building Data Integration and Transformations using Pentaho
Building Data Integration and Transformations using PentahoBuilding Data Integration and Transformations using Pentaho
Building Data Integration and Transformations using PentahoAshnikbiz
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Channy Yun
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 
What's New in Pentaho 7.0?
What's New in Pentaho 7.0?What's New in Pentaho 7.0?
What's New in Pentaho 7.0?Xpand IT
 

En vedette (8)

Hybrid & Logical Data Warehouse
Hybrid & Logical Data WarehouseHybrid & Logical Data Warehouse
Hybrid & Logical Data Warehouse
 
Pentaho ETL ハンズオン
Pentaho ETL ハンズオンPentaho ETL ハンズオン
Pentaho ETL ハンズオン
 
Open Source Reporting Tool Comparison
Open Source Reporting Tool ComparisonOpen Source Reporting Tool Comparison
Open Source Reporting Tool Comparison
 
Building Data Integration and Transformations using Pentaho
Building Data Integration and Transformations using PentahoBuilding Data Integration and Transformations using Pentaho
Building Data Integration and Transformations using Pentaho
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
What's New in Pentaho 7.0?
What's New in Pentaho 7.0?What's New in Pentaho 7.0?
What's New in Pentaho 7.0?
 

Similaire à Pentaho PDI

[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
ODI Series - Treinamento
ODI Series - TreinamentoODI Series - Treinamento
ODI Series - TreinamentoCaio Lima
 
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...tdc-globalcode
 
Comparacao Estrategica sobre as Tecnologias de Acesso a Dados da Microsoft
Comparacao Estrategica sobre as Tecnologias de Acesso a Dados da MicrosoftComparacao Estrategica sobre as Tecnologias de Acesso a Dados da Microsoft
Comparacao Estrategica sobre as Tecnologias de Acesso a Dados da MicrosoftLuciano Condé
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
O Futuro do Data Dude (VS DBPro)
O Futuro do Data Dude (VS DBPro)O Futuro do Data Dude (VS DBPro)
O Futuro do Data Dude (VS DBPro)Igor Abade
 
SQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigDataSQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigDataRodrigo Dornel
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escalarkwseijuurou
 
JBoss Fuse Service Works - O Fuse além da integração - PT-BR
JBoss Fuse Service Works - O Fuse além da integração - PT-BRJBoss Fuse Service Works - O Fuse além da integração - PT-BR
JBoss Fuse Service Works - O Fuse além da integração - PT-BRElvis Rocha
 
Migrando Aplicações para o SQL Azure Database
Migrando Aplicações para o SQL Azure DatabaseMigrando Aplicações para o SQL Azure Database
Migrando Aplicações para o SQL Azure DatabaseRoberto Fonseca
 
Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...
Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...
Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...Daniel Destro Do Carmo
 
SQL Server 2012
SQL Server 2012SQL Server 2012
SQL Server 2012Hcode
 
Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005
Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005
Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005Comunidade CanalSharePoint
 
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Amazon Web Services LATAM
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewRoberto Oliveira
 
L'esprit de l'escalier
L'esprit de l'escalierL'esprit de l'escalier
L'esprit de l'escalierGleicon Moraes
 
Codificando Live Data Warehouse com SSIS 2012 (Parte 1)
Codificando Live Data Warehouse com SSIS 2012 (Parte 1)Codificando Live Data Warehouse com SSIS 2012 (Parte 1)
Codificando Live Data Warehouse com SSIS 2012 (Parte 1)Diego Nogare
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureFabrício Lopes Sanchez
 

Similaire à Pentaho PDI (20)

[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
ODI Series - Treinamento
ODI Series - TreinamentoODI Series - Treinamento
ODI Series - Treinamento
 
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
TDC2017 | São Paulo - Trilha Banco de Dados How we figured out we had a SRE t...
 
Comparacao Estrategica sobre as Tecnologias de Acesso a Dados da Microsoft
Comparacao Estrategica sobre as Tecnologias de Acesso a Dados da MicrosoftComparacao Estrategica sobre as Tecnologias de Acesso a Dados da Microsoft
Comparacao Estrategica sobre as Tecnologias de Acesso a Dados da Microsoft
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
O Futuro do Data Dude (VS DBPro)
O Futuro do Data Dude (VS DBPro)O Futuro do Data Dude (VS DBPro)
O Futuro do Data Dude (VS DBPro)
 
Ms & sap
Ms & sapMs & sap
Ms & sap
 
SQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigDataSQL Server Heterogêneo: SQL Server + BigData
SQL Server Heterogêneo: SQL Server + BigData
 
Construção da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em EscalaConstrução da Plataforma de dados Autônoma e em Escala
Construção da Plataforma de dados Autônoma e em Escala
 
JBoss Fuse Service Works - O Fuse além da integração - PT-BR
JBoss Fuse Service Works - O Fuse além da integração - PT-BRJBoss Fuse Service Works - O Fuse além da integração - PT-BR
JBoss Fuse Service Works - O Fuse além da integração - PT-BR
 
Migrando Aplicações para o SQL Azure Database
Migrando Aplicações para o SQL Azure DatabaseMigrando Aplicações para o SQL Azure Database
Migrando Aplicações para o SQL Azure Database
 
Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...
Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...
Arquitetura de um sistema crítico de alta disponibilidade com soluções open s...
 
SQL Server 2012
SQL Server 2012SQL Server 2012
SQL Server 2012
 
Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005
Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005
Trabalhando com ambientes complexos – SharePoint 2007 e SQL Server 2005
 
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 
Conceitos gerais de etl - Qlikview
Conceitos gerais de etl - QlikviewConceitos gerais de etl - Qlikview
Conceitos gerais de etl - Qlikview
 
L'esprit de l'escalier
L'esprit de l'escalierL'esprit de l'escalier
L'esprit de l'escalier
 
Codificando Live Data Warehouse com SSIS 2012 (Parte 1)
Codificando Live Data Warehouse com SSIS 2012 (Parte 1)Codificando Live Data Warehouse com SSIS 2012 (Parte 1)
Codificando Live Data Warehouse com SSIS 2012 (Parte 1)
 
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o AzureQCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
QCon 2016 - Como migramos uma solução de 4 milhões de usuários para o Azure
 

Dernier

Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 

Dernier (9)

Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 

Pentaho PDI

  • 1. Pentaho PDI ETL e Data Integration Uma abordagem prática para aumento de produtividade João G. Gutheil Set/2016
  • 2. • Cenários • Suite Pentaho • Conceitos • Explorando o PDI ETL e Data Integration
  • 3. ETL e Data Integration Cenário 1 – Integração de Dados ERP S1 S4 S2 S3 S5 Oracle MongoDB MySQL MS SQL Server Oracle MS SQL Server Onde S<id> são sistemas satélites de diversos fornecedores e tecnologias distintas
  • 4. ETL e Data Integration Cenário 2 - Migração de Dados ERP Instance 2 Oracle Onde Instance<id> são instancias do ERP para companhias distintas ERP Instance 1 Oracle Situação atual ERP Unified 1/2 Situação futura Oracle ETLETL Aprox. 4200 tabelas
  • 5. ETL e Data Integration Cenário 3 – Ambiente complexo de BI SQL Server Onde Business<id> é uma área de negócio distinta com seu sistema especialista CRM Oracle DW BI Oracle DW BI Oracle Business 1 Oracle Business 2 Oracle Business 3 Oracle ERP Oracle Logística e transportes
  • 6. ETL e Data Integration Cenário 5 - Telefonia DW Oracle Core 1 Core 2 Core 3 Centrais Telefônicas Registros de movimentação telefônica RAW ETL FTP0010100010 1000111001
  • 7. • Extract • Processo de conexão e extração de dados e informações de diversas origens (Ex Query) • Transform • Operações realizadas sobre a massa de dados {Limpezas, ajustes, enriquecimento} • Integração com / entre diferentes formatos e origens • Load • Armazenamento em bases de dados/arquivos de destino • SGBD • NoSQL • Flat file/XML • Webservice • . . . ETL e Data Integration O processo de ETL e DI
  • 8. ETL e Data Integration Suite • Composto por um conjunto de ferramentas onde cada uma contempla um aspecto de um projeto de Business Intelligence (BI) • Reporting • Analysis • Dashboards • Data Mining • Data Integration
  • 9. ETL e Data Integration Suite • Composto por um conjunto de ferramentas onde cada uma contempla um aspecto de um projeto de Business Intelligence (BI) • Reporting • Analysis • Dashboards • Data Mining • Data Integration Community.pentaho.com
  • 10. ETL e Data Integration • Microsoft SSIS • Talend • Oracle ODI • DataStage (IBM) Ferramentas
  • 11. • Arquitetura e características • Multi-Plataforma (Win, Linux, Mac) • 100% J2EE • Agilidade e produtividade • Simplicidade • Self-Documented • Aplicação • Imp/Exp das mais diversas fontes de dados (Ex. Relacional, NoSQL, flat file) e plataformas (Web Services, JSON) • Popular Data-Marts, DW/EDW, DV • Integração e suporte a Big Data (Hadoop, Cassandra, MongoDB, Spark) • Mitigar ofensores de banco de dados (Cursores, DBLink, Linked Server, querys complexas) ETL e Data Integration Overwiew
  • 12. • Java 1.7/1.8 JRE • 8 GB • 10GB HD • Variáveis de ambiente ETL e Data Integration Requisitos
  • 13. • Spoon: Interface gráfica (spoon.bat) • Kitchen: Execução de JOB´s a partir de linhas de comando • Pan: Execução de Transformações desenvolvidas no Spoon, a partir de linhas de comando • Carte: Webservice para execução distribuída ETL e Data Integration Componentes
  • 14. • Repositório  Workspace | Projeto • Job  Orquestrador para execução e controle de sequencias de transformações • Transformação  Sequencia de passos (Steps) para manipulação de dados • Lookup • Pivot e Unpivot • Agregações • Join, ordenação, Merge • Step  Bloco de execução de código | Objeto • Hop  Representação gráfica da conexão/ligação entre os steps ETL e Data Integration Arquitetura
  • 15. JDBC.PROPERTIES #Oracle jde/type=javax.sql.DataSource jde/driver=oracle.jdbc.driver.OracleDriver jde/url=jdbc:oracle:thin:@//127.0.0.1:1521/service-name jde/user= jde/password= jde/FetchTSWTZasTimestamp=true #Oracle jdepp/type=javax.sql.DataSource jdepp/driver=oracle.jdbc.driver.OracleDriver jdepp/url=jdbc:oracle:thin:@(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 127.0.0.1) (PORT = 1521)) (CONNECT_DATA = (SERVICE_NAME = <service_name>))) jdepp/user= jdepp/password= jdepp/FetchTSWTZasTimestamp=true #SQL Server MS/type=javax.sql.DataSource MS/driver=com.microsoft.sqlserver.jdbc.SQLServerDriver MS/url=jdbc:sqlserver://<servidor>;integratedSecurity=false;database Name=<database_name>;domain=<Domain> MS/user= MS/password= ETL e Data Integration Métodos de Conexão
  • 16. Keep it simple! Pense de forma corporativa Mas desenvolva de forma departamental ETL e Data Integration
  • 17. • Interface Área de trabalho Árvore de Objetos (steps) ETL e Data Integration
  • 18. • Fluxo de desenvolvimento • Criar/Conectar repositório • Criar conexão se necessário • Explorar repositório • Criar/abrir Transformação/JOB ETL e Data Integration
  • 20. João G. Gutheil jgutheil@gmail.com Ciência da Computação - Feevale Especialização em Gestão do Conhecimento e Int. Estratégica - UCS Analista de TI – AGCO Analista de TI – Grupo RBS Vice-Coordenador do GUBI (Grupo de Usuários de BI) – Sucesu RS Áreas de interesse Ferramentas de Mineração de Dados Ferramentas e aplicações de BI Tecnologias NoSQL e Analytics Yosemite Apresentação 2 de 19