Uma Experiência de Solução de Business Intelligence com Software Livre na UFBA Utilizando a Suíte Pentaho BI
1. Uma Experiência de Solução de
Business Intelligence com Software
Livre na UFBA Utilizando a Suíte
Pentaho BI
Maio / 2010
Mauricio Cesar Santos da Purificação
Ana Cristina do Espírito Santo Melo
Gustavo Ramos
Vaninha Vieira dos Santos
2. Roteiro:
Introdução Teórica.
Desafios na Construção de Soluções de BI.
Open Source BI.
Suíte Pentaho BI.
Estudo de Caso: Projeto BI UFBA.
Discussão Geral.
Conclusão e Trabalhos Futuros.
3. Por Quê Business Intelligence (BI) ?
O grande desafio de todo indivíduo que
gerencia qualquer processo é a análise
dos fatos relacionados a seu dever.
Esta análise deve ser feita de modo que,
com as ferramentas e dados disponíveis,
o gerente possa detectar tendências e
tomar decisões eficientes e no tempo
correto.
Com essa necessidade surgiu então o
conceito de Business Intelligence.
4. O Quê é Business Intelligence (BI) ?
BI pode ser definido como todo o processo de coleta e análise de dados,
fazendo uso de metodologias, processos e tecnologias diversas, de modo
a disponibilizar, para os gestores de uma organização, informações úteis
de modo rápido e facilitado a respeito da mesma.
5. Características das Soluções de BI
I. Extrair e integrar dados de múltiplas fontes
II. Fazer uso da experiência
III. Analisar dados contextualizados
IV. Trabalhar com hipóteses
V. Procurar relações de causa e efeito
VI. Transformar os registros obtidos em informação útil para o
conhecimento empresarial
6. Alguns Desafios na Construção de Soluções de
BI
I. Gestão e integridade dos dados utilizados.
II. Projetos de longo prazo sem retorno de investimento a curto e
médio prazo.
III. Convencimento da alta gerência da importância do uso de BI.
IV. Determinar conjunto de ferramentas a ser utilizado:
i. Ferramentas proprietárias são caras demais.
ii. Ferramentas proprietárias não possibilitam customização e
adequações à necessidades específicas.
7. Open Source BI
Além da redução de custos, possibilitam a customização e adequação a
necessidades específicas.
Grande amadurecimento das soluções existentes (em especial Suíte
Pentaho BI), melhoria e expansão da documentação, grande atividade
da comunidade.
8. Suíte Pentaho de Business Intelligence
Atualmente é usada por Serpro, Caixa Econômica Federal.
Número de usuários têm crescido ano após ano
Problemas de documentação têm sido superados pela comunidade e
fóruns e com diversos livros lançados nos últimos anos.
9. Suíte Pentaho de Business Intelligence
Geração de relatórios empresariais;
Processos de ETL (Extração, Transformação e Carga);
Análise de informações (OLAP);
Painéis (dashboards) para controle gerencial;
Mineração de dados (Data Mining);
Workflow;
10. Suíte Pentaho de Business Intelligence
Escrito em Java
Multiplataforma
Utiliza o servidor Tomcat
Integração com o Jasper Reports
Conhecimento necessário para desenvolvimento de soluções:
HTML, CSS, JavaScript, XML, Java, JSP, MDX e SQL
Principais bancos de dados aceitos: Oracle, PostgreSQL, MySQL,
SQL Server, IBM DB2 Express Edtion
11. Suíte Pentaho de Business Intelligence
Pentaho BI Platform. Contém a infra-estrutura responsável por
integrar a solução de BI. Ele oferece serviços essenciais para
construir, implantar, executar e dar suporte aos relatórios, análise de
cubos, dashboards, etc. Também provê mecanismos de autenticação
e controle de acesso.
Pentaho Data Integration (PDI). Também conhecido por Kettle, esta
ferramenta é responsável pelo processo de ETL (Extraction,
Transformation and Load ou, em português, Extração, Transformação
e Carga).
12. Suíte Pentaho de Business Intelligence
Mondrian. É um servidor OLAP que permite analisar interativamente
grandes conjuntos de dados armazenados em bancos de dados
relacionais.
Pentaho Reporting. É uma coleção de projetos de código fonte
aberto, focados principalmente na criação, produção e publicação do
conteúdo de relatórios de forma rica e sofisticada.
Weka. É um conjunto abrangente de ferramentas para aprendizado
de máquina e mineração de dados. Pode ser usada para ajudar a
entender melhor o negócio da instituição.
14. Realizações Etapa 1
Modelagem dimensional do UFBADB
Criação da base UFBADB no Postgresql
Migração dos dados em .CSV para a base relacional criada
Criação das rotinas de ETL
Criação da base dimensional no Postgresql
Carga no banco dimensional DW-UFBADB
Configuração do cubo do Schema Workbench
Publicação do cubo gerado no servidor de soluções Pentaho
Realização de consultas gerais
Elaboração de manual da ferramenta
15. Melhorias Avaliadas
Revisão das rotinas de ETL para várias cargas de dados
Implementação de relatórios diversos
Implementação de dashboards
Avaliação da qualidade dos dados/resultados apresentados nas
consultas – revisão das rotinas de ETL
Revisão do modelo dimensional/mudança no processo de ETL
Revisão do modelo de arquitetura proposto
16. Próximos Passos – Projeto Permanecer
Implantação da solução desenvolvida.
Definição de rotina de testes e avaliação da qualidade dos dados.
Criação de área de testes e produção, para construções de novas
soluções.
Criação dos Data Marts de Vestibular e Produção Cientifica.
Desenvolvimento de manuais de usuário e rotinas de treinamento.
17. Alguns Aspectos
Desconfiança com relação a viabilidade de uso de uma solução Open
Source para BI.
Falta de conhecimento da ferramenta por parte dos bolsistas atuantes
no projeto.
Falta de documentação em língua portuguesa.
Alta curva de aprendizado.
Documentação não concentrada em fonte única.
Limitações da suíte Pentaho em termos de análise e facilidade no
manuseio das consultas OLAP.
Projeto PAT – Pentaho Analisys Tools
18. Conclusões e Trabalhos Futuros
Apesar das dificuldades de uso e problemas com documentação, a
suíte Pentaho é estável e extremamente viável para construção de
soluções de BI.
Criação de uma rede de colaboração em torno da ferramenta, pode
suprir carências relacionadas à documentação e conhecimento da
mesma, além de permitir a construção de um produto que atenda aos
interesses das IFES para soluções de BI.