O documento discute o uso de data warehouse (DW) e data mining (DM) para apoiar a tomada de decisões empresariais. Ele explica que um DW armazena e organiza dados de várias fontes para análise, enquanto o DM busca padrões nesses dados. O documento também descreve arquiteturas comuns de DW, como estrela e floco de neve, e técnicas como fatos, dimensões e medidas. Por fim, apresenta um caso prático sobre um DW para uma distribuidora de filmes.
1. UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
CAMPUS IV – LITORAL NORTE
DISICPLINA: BANCO DE DADOS II
PROFESSORA VANESSA DANTAS
3. Agenda
• Por que usar DW e DM?
• Data Warehouse
– Características de um Data Warehouse
– Dados (OLTP x OLAP)
– Operational Data Storage – ODS
– Data Marts
– Arquiteturas
– Tipos de Implementação
– Granularidade dos Dados
– Estudo de Caso
4. Agenda
• Data Mining
– Conceito
– Dados, Informações e Conhecimento
– Objetivos
– Como implementar um DM
– Aplicações de DM
– Barreiras no uso de DM
5. Por que usar DW e DM?
• Business Inteligence
– Apoio à tomada de Decisões
• Customer Relationship Management (CRM)
– Tratar clientes diferentes de forma diferente
• Várias Plataformas de hardware e Software
• Constantes alterações nos sistemas transacionais
corporativos
7. Data Warehouse
• Para se construir deve-se utilizar uma
ferramenta ETL
(Extraction, Transformation, Load)
• Após a ETL, os dados são processados e
armazenados no DW
• Nem todos os dados devem ser transferidos
para um DW
• Os dados são organizados no DW de forma
simples para o usuário final acessá-lo
8. Características (1)
• Extração de Dados de fontes heterogêneas
• Transformação e integração de dados
• Visualização de dados em diferentes níveis
9. Características (2)
• Orientação por Assunto
Ambiente Transacional Data Warehouse
Vendas
Pedido, nota fiscal
Ordem de produção, Produção
máquina
Falha, produto Qualidade
10. Características (3)
• Variação de Tempo
– Precisão em relação ao tempo
– Data é elemento essencial e componente-chave
– Ao contrário de sistemas transacionais, DW tem
espaços de tempo mais longos
11. Características (4)
• Não Volátil
Bancos de Dados Bancos de Dados
transacionais Data Warehouse
Incluir
Incluir
Excluir
Acessar Acessar
Alterar
12. Características (5)
• Integração
Sexo “Masculino”
Sexo “Feminino”
Extração
Filtro
Sexo “1” DW
Sexo “2” Sexo “M”
Sexo “F”
13. Dados (OLTP x OLAP)
OLTP: OLAP:
(Online Transactional Processing) (Online Analytical Processing)
• Do negócio • Sobre o Negócio
• Transacional • Analítico
• Operacional • Estratégico
• Volátil • Não-Volátil
• Não-padronizado • Padronizado
• ROLAP (Relacional)
• MOLAP (Multi)
• DOLAP (Desktop)
14. Operational Data Storage – ODS (1)
• Objetivo
– Criar um ambiente intermediário de
armazenamento e processamento de dados
vindos de diversas fontes para o processo de
ETL, evitando problemas após a criação do DW.
15. Operational Data Storage – ODS (2)
• Também chamado de Dynamic Data Storage -
DDS e Staging Area
• Representa um armazenamento intermediário
dos dados
DW
• Ideal quando se tem várias fontes de dados
16. Operational Data Storage – ODS (3)
Sistemas
Legados
DW
ODS
OLAP
DW
Data Mining
Fontes
Externas
Todos os dados são filtrados aqui!
17. Operational Data Storage – ODS (4)
Cliente João
Num_001
Sistema
Conta-Corrente
Cliente João
Num_579 ODS
Sistema
Aplicações
Cliente João
Num_351 João DW
+ inf. Conta-corrente
Sistema + inf. Aplicações
Poupança + inf. poupança
18. Data Marts (1)
• DW segmentado, por departamento, por exemplo.
• Representa um subconjunto do DW
• Pode ser feito de duas formas:
– Capturando dados dos OLTPs
• Mais rápido
• Pode haver problemas com padronização de dados
– Capturando dados do DW
• Mais eficiente
• Mais demorado
20. Arquiteturas de DW
• Fatores que determinam a arquitetura:
– Infra-estrutura
– Recursos
– Abrangência
– Capacitação da equipe
• Muitas vezes a arquitetura é uma combinação
das arquiteturas disponíveis e as abordagens
de implementação.
21. Arquitetura Global
Global = Por toda a empresa Arquitetura global distribuída
Dados
Operacionais
e
Externos Arquitetura global centralizada
22. Arquitetura de DM independente
Dados
Operacionais
e
Externos
Data Marts Stand Alone sem foco
coorporativo nenhum
24. Tipos de Implementação
• A escolha por um tipo é influenciada por
fatores como:
– Infra-estrutura de TI
– Arquitetura escolhida
– Escopo
– Recursos disponíveis ($)
– Necessidade ou não de acesso corporativo dos
dados
– Velocidade de implementação
26. • Vantagens • Desvantagens
– Herança de - Implementação longa
Arquitetura - Alta taxa de risco
– Repositório - Expectativas
Centralizado
– Centralização de
regras
27. Abordagem Bottom Up
DM 1 Data Warehouse
Sistemas
Operacionais
DM
DM
DM 2
DM
.
.
. DM
DM n
28. • Vantagens • Desvantagens
– Implementação - Perigo de Legamarts
(Dificultam futuras
rápida
integrações)
– Retorno rápido - Desafio de possuir
– Herança incremental visão do
empreendimento
- A maldição do
sucesso
29. Granularidade dos Dados
Alto nível de detalhes Baixo nível de detalhes
Baixo nível de granularidade Alto nível de granularidade
Exemplo Exemplo
Detalhe de cada transação Sumário das transações de
de venda de um vendedor venda de um vendedor
realizada durante um mês realizadas durante um mês
Data
50 registros Mês
Hora
Vendedor
Vendedor por mês Valor
Valor
30. Modelagem Multidimensional
• Fato
– Representa um item, uma transação ou um evento de
negócio.
– Reflete a evolução dos negócios
– Exemplo: “O índice de aprovação da cadeira de Cálculo I
vem aumentando nos últimos dois anos”
• Dimensões
– Elementos que participam de um fato
– Tempo, Localização, Clientes, Vendedores, etc.
• Medidas (Variáveis)
– Atributos numéricos que representam um fato
– Valor de vendas, número de alunos aprovados, etc.
31. Star Schema
Dimensão Data
Dimensão Dimensão
Cliente Região
Fato de Vendas
Dimensão Dimensão
Vendedor Produto
32. Snowflake Schema Dimensão
Cidade
Dimensão
Semana
Dimensão Data
Dimensão
Dimensão Mês Estado
Dimensão Dimensão
Cliente Região
Fato de Vendas
Dimensão Tipo
do Produto
Dimensão Dimensão
Vendedor Produto
33. Estudo de Caso
• Uma grande distribuidora de filmes possui um
sistema para controle dos seus filmes
• O sistema atual controla os filmes por salas de
cinema onde são exibidos, tendo informações
sobre capacidade da sala, localização
regional, assim como a bilheteria de cada
sessão.
34. O sistema atual
• O sistema controla os atores que participam
dos filmes
• Diretor do filme
• Filmes são classificados por gênero e por
origem
• Quantidade de público e valor arrecadado
pela bilheteria
35. Necessidades Executivas (1)
• Acompanhar a evolução do público e valor
arrecadado por região do país, estado e
cidade, classificados por gênero e sala de
cinema
• Também é necessário avaliar a evolução de
filmes por ator e por diretor
36. Necessidades Executivas (2)
• Saber quais diretores atraem mais publico e
em que gênero está esse público.
• O tempo é fator fundamental de análise, pois
é preciso saber quais períodos do ano
possuem mais público por gênero, ator e
diretor, e geograficamente.
38. Data Mining
“É o processo de busca por dados, por
PADRÕES anteriormente desconhecidos e uso
frequente desses padrões para predizer
CONSEQUÊNCIAS futuras.”
• Jeff Jonas e Jim Harper
39. Data Mining
“É a concepção de modelos computacionais
capazes de identificar e revelar padrões
desconhecidos mas existentes entre dados
pertencentes a uma ou mais bases de dados”
40. Simplificando...
• Torture os dados até
eles confessarem ...
Se você torturar o
suficiente, eles irão
confessar tudo
41. Dados, Informações e Conhecimento
• “…dados são puramente sintáticos enquanto
informação
contém, necessariamente, semântica.
Conhecimento é uma abstração interior (…)
relacionada a alguma coisa existente no
mundo real e do qual temos uma experiência
direta”.
– Setzer
42. Objetivos da DM
• Descobrir PADRÕES
– Representar informações úteis para a empresa
– Caso da Cerveja e da Fralda
• Descrever
– Explicar resultados ou valores obtidos em
determinados dados ou negócios
• Prever
– Antecipar o comportamento ou valor futuro de algum
fenômeno com base em conhecimento prévio.
43. Como implementar Data Mining
• Algoritmos baseados em redes neurais
– Processamento de dados de maneira semelhante ao
cérebro humano
– Decisões baseadas na aprendizagem
• Algoritmos estatísticos
– Utilizados na análise de dados, a fim de encontrar padrões
e correlações entre eles
• Algoritmos de Aprendizado
– Extrair padrões a partir da interação com o ambiente
44. Aplicações de Data Mining
• Cross-Selling
– Identificar associação entre produtos
• Up-Selling
– Identificar potenciais clientes para determinados
produtos
• Fidelização
– Descobrir fatores associados a perda de clientes
45. Barreiras do uso de DW e DM
• Altos Custos
• Ferramentas muito complexas
• Preparação dos dados (80% do trabalho)
• Dificuldade em estimar o retorno do
investimento
46. Concluindo...
“Um projeto de Data Warehouse nunca
termina. As fontes de dados mudam, as
necessidades dos usuários também mudam, o
número deles aumenta, as regras de mercado
se alteram, os usuários demandarão mais
informações. Enfim, Data Warehousing não é
o OBJETIVO; é o CAMINHO”
47. Referências
• Tecnologia e Projeto de Data Warehouse
– Felipe Nery Rodrigues Machado
• Tecnologia de Data Warehouse
– Rafael Ramos Batista de Figueiredo
• Um projeto de Data Warehouse
– Angelo Luiz de Bortoli
• Redes Neurais – Uma ferramenta para KDD e
Data Mining
– Antonio Carlos Gay Thomé