SlideShare une entreprise Scribd logo
1  sur  49
UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
       CAMPUS IV – LITORAL NORTE

     DISICPLINA: BANCO DE DADOS II
     PROFESSORA VANESSA DANTAS
Data Warehouse & Data
       Mining

      Thiago Oliveira
Agenda
• Por que usar DW e DM?

• Data Warehouse
  –   Características de um Data Warehouse
  –   Dados (OLTP x OLAP)
  –   Operational Data Storage – ODS
  –   Data Marts
  –   Arquiteturas
  –   Tipos de Implementação
  –   Granularidade dos Dados
  –   Estudo de Caso
Agenda

• Data Mining
  – Conceito
  – Dados, Informações e Conhecimento
  – Objetivos
  – Como implementar um DM
  – Aplicações de DM
  – Barreiras no uso de DM
Por que usar DW e DM?

• Business Inteligence
  – Apoio à tomada de Decisões

• Customer Relationship Management (CRM)
  – Tratar clientes diferentes de forma diferente

• Várias Plataformas de hardware e Software

• Constantes alterações nos sistemas transacionais
  corporativos
Data Warehouse
Data Warehouse
• Para se construir deve-se utilizar uma
  ferramenta ETL
  (Extraction, Transformation, Load)
• Após a ETL, os dados são processados e
  armazenados no DW
• Nem todos os dados devem ser transferidos
  para um DW
• Os dados são organizados no DW de forma
  simples para o usuário final acessá-lo
Características (1)

• Extração de Dados de fontes heterogêneas

• Transformação e integração de dados

• Visualização de dados em diferentes níveis
Características (2)
• Orientação por Assunto
   Ambiente Transacional                 Data Warehouse


                                                          Vendas
                   Pedido, nota fiscal




                   Ordem de produção,                     Produção
                   máquina




                   Falha, produto                         Qualidade
Características (3)
• Variação de Tempo

  – Precisão em relação ao tempo

  – Data é elemento essencial e componente-chave

  – Ao contrário de sistemas transacionais, DW tem
    espaços de tempo mais longos
Características (4)
• Não Volátil

           Bancos de Dados   Bancos de Dados
            transacionais    Data Warehouse




 Incluir
                                               Incluir
 Excluir
Acessar                                        Acessar
Alterar
Características (5)
    • Integração

Sexo “Masculino”
Sexo “Feminino”

                               Extração
                                Filtro

       Sexo “1”                            DW
       Sexo “2”                           Sexo “M”
                                          Sexo “F”
Dados (OLTP x OLAP)
OLTP:                               OLAP:
(Online Transactional Processing)   (Online Analytical Processing)


•   Do negócio                      •   Sobre o Negócio
•   Transacional                    •   Analítico
•   Operacional                     •   Estratégico
•   Volátil                         •   Não-Volátil
•   Não-padronizado                 •   Padronizado
                                        • ROLAP (Relacional)
                                        • MOLAP (Multi)
                                        • DOLAP (Desktop)
Operational Data Storage – ODS (1)
• Objetivo

  – Criar     um    ambiente     intermediário    de
    armazenamento e processamento de dados
    vindos de diversas fontes para o processo de
    ETL, evitando problemas após a criação do DW.
Operational Data Storage – ODS (2)
• Também chamado de Dynamic Data Storage -
  DDS e Staging Area

• Representa um armazenamento intermediário
  dos dados
                                               DW

• Ideal quando se tem várias fontes de dados
Operational Data Storage – ODS (3)

Sistemas
 Legados
                                      DW




            ODS
                                                      OLAP
                                                     DW
                                                   Data Mining
 Fontes
Externas


              Todos os dados são filtrados aqui!
Operational Data Storage – ODS (4)
                     Cliente João
                      Num_001

       Sistema
    Conta-Corrente


                     Cliente João
                      Num_579               ODS

       Sistema
      Aplicações



                     Cliente João
                      Num_351       João                    DW
                                    + inf. Conta-corrente
       Sistema                      + inf. Aplicações
      Poupança                      + inf. poupança
Data Marts (1)

• DW segmentado, por departamento, por exemplo.

• Representa um subconjunto do DW

• Pode ser feito de duas formas:
   – Capturando dados dos OLTPs
      • Mais rápido
      • Pode haver problemas com padronização de dados
   – Capturando dados do DW
      • Mais eficiente
      • Mais demorado
Nós somos
Data Marts!   Data Marts (2)   Nós somos
                               Data Marts!




Nós somos
Data Marts!
Arquiteturas de DW
• Fatores que determinam a arquitetura:
  – Infra-estrutura
  – Recursos
  – Abrangência
  – Capacitação da equipe

• Muitas vezes a arquitetura é uma combinação
  das arquiteturas disponíveis e as abordagens
  de implementação.
Arquitetura Global
Global = Por toda a empresa    Arquitetura global distribuída




    Dados
 Operacionais
      e
   Externos                    Arquitetura global centralizada
Arquitetura de DM independente




   Dados
Operacionais
     e
  Externos
               Data Marts Stand Alone sem foco
               coorporativo nenhum
Arquitetura de DM integrada




   Dados
Operacionais
     e
  Externos
Tipos de Implementação
• A escolha por um tipo é influenciada por
  fatores como:
  – Infra-estrutura de TI
  – Arquitetura escolhida
  – Escopo
  – Recursos disponíveis ($)
  – Necessidade ou não de acesso corporativo dos
    dados
  – Velocidade de implementação
Abordagem Top Down

                         DM




                         DM
   ODS              DW

                         .
                         .
                         .

                         DM



   Data Mining   OLAP
• Vantagens           • Desvantagens

 – Herança de           - Implementação longa
   Arquitetura          - Alta taxa de risco
 – Repositório          - Expectativas
   Centralizado
 – Centralização de
   regras
Abordagem Bottom Up

                      DM 1       Data Warehouse

 Sistemas
Operacionais
                                     DM

                                     DM
                      DM 2
                                     DM
                       .
                       .
                       .             DM


                      DM n
• Vantagens              • Desvantagens

 – Implementação           - Perigo de Legamarts
                             (Dificultam futuras
   rápida
                             integrações)
 – Retorno rápido          - Desafio de possuir
 – Herança incremental       visão do
                             empreendimento
                           - A maldição do
                             sucesso
Granularidade dos Dados
 Alto nível de detalhes                    Baixo nível de detalhes
 Baixo nível de granularidade              Alto nível de granularidade




Exemplo                                    Exemplo
Detalhe de cada transação                  Sumário das transações de
de venda de um vendedor                    venda de um vendedor
realizada durante um mês                   realizadas durante um mês


           Data
                            50 registros             Mês
           Hora
                                                   Vendedor
         Vendedor           por mês                  Valor
           Valor
Modelagem Multidimensional
• Fato
   – Representa um item, uma transação ou um evento de
     negócio.
   – Reflete a evolução dos negócios
   – Exemplo: “O índice de aprovação da cadeira de Cálculo I
     vem aumentando nos últimos dois anos”

• Dimensões
   – Elementos que participam de um fato
   – Tempo, Localização, Clientes, Vendedores, etc.

• Medidas (Variáveis)
   – Atributos numéricos que representam um fato
   – Valor de vendas, número de alunos aprovados, etc.
Star Schema
                      Dimensão Data




Dimensão                                          Dimensão
 Cliente                                           Região

                      Fato de Vendas




           Dimensão                    Dimensão
           Vendedor                     Produto
Snowflake Schema                             Dimensão
                                                                Cidade
Dimensão
 Semana
                               Dimensão Data
                                                           Dimensão
           Dimensão Mês                                     Estado



    Dimensão                                               Dimensão
     Cliente                                                Região

                               Fato de Vendas




                                                            Dimensão Tipo
                                                              do Produto
                    Dimensão                    Dimensão
                    Vendedor                     Produto
Estudo de Caso
• Uma grande distribuidora de filmes possui um
  sistema para controle dos seus filmes



• O sistema atual controla os filmes por salas de
  cinema onde são exibidos, tendo informações
  sobre capacidade da sala, localização
  regional, assim como a bilheteria de cada
  sessão.
O sistema atual

• O sistema controla os atores que participam
  dos filmes
• Diretor do filme
• Filmes são classificados por gênero e por
  origem
• Quantidade de público e valor arrecadado
  pela bilheteria
Necessidades Executivas (1)
• Acompanhar a evolução do público e valor
  arrecadado por região do país, estado e
  cidade, classificados por gênero e sala de
  cinema

• Também é necessário avaliar a evolução de
  filmes por ator e por diretor
Necessidades Executivas (2)

• Saber quais diretores atraem mais publico e
  em que gênero está esse público.

• O tempo é fator fundamental de análise, pois
  é preciso saber quais períodos do ano
  possuem mais público por gênero, ator e
  diretor, e geograficamente.
Modelo do DW solicitado
Data Mining




“É o processo de busca por dados, por
PADRÕES anteriormente desconhecidos e uso
frequente desses padrões para predizer
CONSEQUÊNCIAS futuras.”
                           • Jeff Jonas e Jim Harper
Data Mining




“É a concepção de modelos computacionais
capazes de identificar e revelar padrões
desconhecidos mas existentes entre dados
pertencentes a uma ou mais bases de dados”
Simplificando...

        • Torture os dados até
          eles confessarem ...
          Se você torturar o
          suficiente, eles irão
          confessar tudo
Dados, Informações e Conhecimento

• “…dados são puramente sintáticos enquanto
  informação
  contém, necessariamente, semântica.
  Conhecimento é uma abstração interior (…)
  relacionada a alguma coisa existente no
  mundo real e do qual temos uma experiência
  direta”.
                                – Setzer
Objetivos da DM
• Descobrir PADRÕES
  – Representar informações úteis para a empresa
  – Caso da Cerveja e da Fralda

• Descrever
  – Explicar resultados ou valores        obtidos   em
    determinados dados ou negócios


• Prever
  – Antecipar o comportamento ou valor futuro de algum
    fenômeno com base em conhecimento prévio.
Como implementar Data Mining
• Algoritmos baseados em redes neurais
   – Processamento de dados de maneira semelhante ao
     cérebro humano
   – Decisões baseadas na aprendizagem


• Algoritmos estatísticos
   – Utilizados na análise de dados, a fim de encontrar padrões
     e correlações entre eles


• Algoritmos de Aprendizado
   – Extrair padrões a partir da interação com o ambiente
Aplicações de Data Mining
• Cross-Selling
  – Identificar associação entre produtos


• Up-Selling
  – Identificar potenciais clientes para determinados
    produtos


• Fidelização
  – Descobrir fatores associados a perda de clientes
Barreiras do uso de DW e DM
• Altos Custos

• Ferramentas muito complexas

• Preparação dos dados (80% do trabalho)

• Dificuldade em    estimar   o   retorno   do
  investimento
Concluindo...

“Um projeto de Data Warehouse nunca
termina. As fontes de dados mudam, as
necessidades dos usuários também mudam, o
número deles aumenta, as regras de mercado
se alteram, os usuários demandarão mais
informações. Enfim, Data Warehousing não é
o OBJETIVO; é o CAMINHO”
Referências
• Tecnologia e Projeto de Data Warehouse
  – Felipe Nery Rodrigues Machado
• Tecnologia de Data Warehouse
  – Rafael Ramos Batista de Figueiredo
• Um projeto de Data Warehouse
  – Angelo Luiz de Bortoli
• Redes Neurais – Uma ferramenta para KDD e
  Data Mining
  – Antonio Carlos Gay Thomé
Dúvidas?
Obrigado!

Contenu connexe

Tendances

빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법Ji Lee
 
Curso de cienciometria. Aula 3, Os indicadores cienciométricos
Curso de cienciometria. Aula 3, Os indicadores cienciométricosCurso de cienciometria. Aula 3, Os indicadores cienciométricos
Curso de cienciometria. Aula 3, Os indicadores cienciométricosLeticia Strehl
 
Azure data factory
Azure data factoryAzure data factory
Azure data factoryDavid Giard
 
DataMinds 2022 Azure Purview Erwin de Kreuk
DataMinds 2022 Azure Purview Erwin de KreukDataMinds 2022 Azure Purview Erwin de Kreuk
DataMinds 2022 Azure Purview Erwin de KreukErwin de Kreuk
 
Azure Databricks - An Introduction (by Kris Bock)
Azure Databricks - An Introduction (by Kris Bock)Azure Databricks - An Introduction (by Kris Bock)
Azure Databricks - An Introduction (by Kris Bock)Daniel Toomey
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosAlexandre Duarte
 
PIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visual
PIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visualPIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visual
PIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visualDiana Fournier
 
Navegação e Arquitetura de Informação
Navegação e Arquitetura de InformaçãoNavegação e Arquitetura de Informação
Navegação e Arquitetura de InformaçãoLuiz Agner
 
Ferramentas de coleta de dados - Entrevistas
Ferramentas de coleta de dados - EntrevistasFerramentas de coleta de dados - Entrevistas
Ferramentas de coleta de dados - EntrevistasLuiz Agner
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lakeDaeMyung Kang
 
Building a modern data warehouse
Building a modern data warehouseBuilding a modern data warehouse
Building a modern data warehouseJames Serra
 
Projeto TCC - SENAI - Lucas
Projeto TCC - SENAI - LucasProjeto TCC - SENAI - Lucas
Projeto TCC - SENAI - Lucaslucas_mendes
 
Conceitos Tabelas Fatos e Dimensões no BI
Conceitos Tabelas Fatos e Dimensões no BIConceitos Tabelas Fatos e Dimensões no BI
Conceitos Tabelas Fatos e Dimensões no BIJosé Nascimento
 
Dealing with Azure Cosmos DB
Dealing with Azure Cosmos DBDealing with Azure Cosmos DB
Dealing with Azure Cosmos DBMihail Mateev
 
Introduction to Data Vault Modeling
Introduction to Data Vault ModelingIntroduction to Data Vault Modeling
Introduction to Data Vault ModelingKent Graziano
 
Azure Data Factory Data Flows Training v005
Azure Data Factory Data Flows Training v005Azure Data Factory Data Flows Training v005
Azure Data Factory Data Flows Training v005Mark Kromer
 

Tendances (20)

빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법빅데이터 분석 시각화 분석 : 3장 시각화 방법
빅데이터 분석 시각화 분석 : 3장 시각화 방법
 
Curso de cienciometria. Aula 3, Os indicadores cienciométricos
Curso de cienciometria. Aula 3, Os indicadores cienciométricosCurso de cienciometria. Aula 3, Os indicadores cienciométricos
Curso de cienciometria. Aula 3, Os indicadores cienciométricos
 
Azure data factory
Azure data factoryAzure data factory
Azure data factory
 
DataMinds 2022 Azure Purview Erwin de Kreuk
DataMinds 2022 Azure Purview Erwin de KreukDataMinds 2022 Azure Purview Erwin de Kreuk
DataMinds 2022 Azure Purview Erwin de Kreuk
 
Azure Databricks - An Introduction (by Kris Bock)
Azure Databricks - An Introduction (by Kris Bock)Azure Databricks - An Introduction (by Kris Bock)
Azure Databricks - An Introduction (by Kris Bock)
 
Aula 2 banco de dados
Aula 2   banco de dadosAula 2   banco de dados
Aula 2 banco de dados
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 
PIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visual
PIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visualPIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visual
PIBIC 2010/1 - Interfaces entre a Semiótica e o Planejamento visual
 
Navegação e Arquitetura de Informação
Navegação e Arquitetura de InformaçãoNavegação e Arquitetura de Informação
Navegação e Arquitetura de Informação
 
Ferramentas de coleta de dados - Entrevistas
Ferramentas de coleta de dados - EntrevistasFerramentas de coleta de dados - Entrevistas
Ferramentas de coleta de dados - Entrevistas
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
Building a modern data warehouse
Building a modern data warehouseBuilding a modern data warehouse
Building a modern data warehouse
 
Aula fontes de informação
Aula  fontes de informaçãoAula  fontes de informação
Aula fontes de informação
 
Projeto TCC - SENAI - Lucas
Projeto TCC - SENAI - LucasProjeto TCC - SENAI - Lucas
Projeto TCC - SENAI - Lucas
 
Conceitos Tabelas Fatos e Dimensões no BI
Conceitos Tabelas Fatos e Dimensões no BIConceitos Tabelas Fatos e Dimensões no BI
Conceitos Tabelas Fatos e Dimensões no BI
 
Dealing with Azure Cosmos DB
Dealing with Azure Cosmos DBDealing with Azure Cosmos DB
Dealing with Azure Cosmos DB
 
Análise de Dados
Análise de DadosAnálise de Dados
Análise de Dados
 
Introduction to Data Vault Modeling
Introduction to Data Vault ModelingIntroduction to Data Vault Modeling
Introduction to Data Vault Modeling
 
Azure Data Factory Data Flows Training v005
Azure Data Factory Data Flows Training v005Azure Data Factory Data Flows Training v005
Azure Data Factory Data Flows Training v005
 

Similaire à Data Warehouse

Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
Business Intelligence Open Source - Portuguese -
Business Intelligence Open Source  - Portuguese -Business Intelligence Open Source  - Portuguese -
Business Intelligence Open Source - Portuguese -Stratebi
 
Apresentacao Vertical De Alocacao Consultor Adriana
Apresentacao Vertical De Alocacao   Consultor AdrianaApresentacao Vertical De Alocacao   Consultor Adriana
Apresentacao Vertical De Alocacao Consultor Adrianacleveranjos
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 
Flavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e NegóciosFlavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e NegóciosZabbix BR
 
SAP - Integração e mobilidade em tempo real
SAP - Integração e mobilidade em tempo realSAP - Integração e mobilidade em tempo real
SAP - Integração e mobilidade em tempo realRenilton Oliveira
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dadosEdvaldo Castro
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Conceitos básicos e aplicações dos sistemas de informações ivaldo
Conceitos básicos e aplicações dos sistemas de informações ivaldoConceitos básicos e aplicações dos sistemas de informações ivaldo
Conceitos básicos e aplicações dos sistemas de informações ivaldoIvaldo Santos Barbosa
 

Similaire à Data Warehouse (20)

Conceitos DW
Conceitos DWConceitos DW
Conceitos DW
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
Business Intelligence Open Source - Portuguese -
Business Intelligence Open Source  - Portuguese -Business Intelligence Open Source  - Portuguese -
Business Intelligence Open Source - Portuguese -
 
Nivaldo Sanches
Nivaldo SanchesNivaldo Sanches
Nivaldo Sanches
 
Tópico 2
Tópico 2Tópico 2
Tópico 2
 
datawarehouse2
datawarehouse2datawarehouse2
datawarehouse2
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
Apresentacao Vertical De Alocacao Consultor Adriana
Apresentacao Vertical De Alocacao   Consultor AdrianaApresentacao Vertical De Alocacao   Consultor Adriana
Apresentacao Vertical De Alocacao Consultor Adriana
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
Flavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e NegóciosFlavio Roberto: Monitorando Serviços e Negócios
Flavio Roberto: Monitorando Serviços e Negócios
 
ILM com PostgreSQL
ILM com PostgreSQLILM com PostgreSQL
ILM com PostgreSQL
 
SAP - Integração e mobilidade em tempo real
SAP - Integração e mobilidade em tempo realSAP - Integração e mobilidade em tempo real
SAP - Integração e mobilidade em tempo real
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
Conceitos básicos e aplicações dos sistemas de informações ivaldo
Conceitos básicos e aplicações dos sistemas de informações ivaldoConceitos básicos e aplicações dos sistemas de informações ivaldo
Conceitos básicos e aplicações dos sistemas de informações ivaldo
 

Plus de Thiago Oliveira

Plus de Thiago Oliveira (8)

Apresentação tcc
Apresentação   tccApresentação   tcc
Apresentação tcc
 
Android - Activities and services
Android - Activities and servicesAndroid - Activities and services
Android - Activities and services
 
MPS-BR Nível A
MPS-BR Nível AMPS-BR Nível A
MPS-BR Nível A
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Cmmi 5
Cmmi 5Cmmi 5
Cmmi 5
 
Neo4 jv2 english
Neo4 jv2 englishNeo4 jv2 english
Neo4 jv2 english
 
E business
E businessE business
E business
 
Grids computacionais
Grids computacionaisGrids computacionais
Grids computacionais
 

Data Warehouse

  • 1. UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISICPLINA: BANCO DE DADOS II PROFESSORA VANESSA DANTAS
  • 2. Data Warehouse & Data Mining Thiago Oliveira
  • 3. Agenda • Por que usar DW e DM? • Data Warehouse – Características de um Data Warehouse – Dados (OLTP x OLAP) – Operational Data Storage – ODS – Data Marts – Arquiteturas – Tipos de Implementação – Granularidade dos Dados – Estudo de Caso
  • 4. Agenda • Data Mining – Conceito – Dados, Informações e Conhecimento – Objetivos – Como implementar um DM – Aplicações de DM – Barreiras no uso de DM
  • 5. Por que usar DW e DM? • Business Inteligence – Apoio à tomada de Decisões • Customer Relationship Management (CRM) – Tratar clientes diferentes de forma diferente • Várias Plataformas de hardware e Software • Constantes alterações nos sistemas transacionais corporativos
  • 7. Data Warehouse • Para se construir deve-se utilizar uma ferramenta ETL (Extraction, Transformation, Load) • Após a ETL, os dados são processados e armazenados no DW • Nem todos os dados devem ser transferidos para um DW • Os dados são organizados no DW de forma simples para o usuário final acessá-lo
  • 8. Características (1) • Extração de Dados de fontes heterogêneas • Transformação e integração de dados • Visualização de dados em diferentes níveis
  • 9. Características (2) • Orientação por Assunto Ambiente Transacional Data Warehouse Vendas Pedido, nota fiscal Ordem de produção, Produção máquina Falha, produto Qualidade
  • 10. Características (3) • Variação de Tempo – Precisão em relação ao tempo – Data é elemento essencial e componente-chave – Ao contrário de sistemas transacionais, DW tem espaços de tempo mais longos
  • 11. Características (4) • Não Volátil Bancos de Dados Bancos de Dados transacionais Data Warehouse Incluir Incluir Excluir Acessar Acessar Alterar
  • 12. Características (5) • Integração Sexo “Masculino” Sexo “Feminino” Extração Filtro Sexo “1” DW Sexo “2” Sexo “M” Sexo “F”
  • 13. Dados (OLTP x OLAP) OLTP: OLAP: (Online Transactional Processing) (Online Analytical Processing) • Do negócio • Sobre o Negócio • Transacional • Analítico • Operacional • Estratégico • Volátil • Não-Volátil • Não-padronizado • Padronizado • ROLAP (Relacional) • MOLAP (Multi) • DOLAP (Desktop)
  • 14. Operational Data Storage – ODS (1) • Objetivo – Criar um ambiente intermediário de armazenamento e processamento de dados vindos de diversas fontes para o processo de ETL, evitando problemas após a criação do DW.
  • 15. Operational Data Storage – ODS (2) • Também chamado de Dynamic Data Storage - DDS e Staging Area • Representa um armazenamento intermediário dos dados DW • Ideal quando se tem várias fontes de dados
  • 16. Operational Data Storage – ODS (3) Sistemas Legados DW ODS OLAP DW Data Mining Fontes Externas Todos os dados são filtrados aqui!
  • 17. Operational Data Storage – ODS (4) Cliente João Num_001 Sistema Conta-Corrente Cliente João Num_579 ODS Sistema Aplicações Cliente João Num_351 João DW + inf. Conta-corrente Sistema + inf. Aplicações Poupança + inf. poupança
  • 18. Data Marts (1) • DW segmentado, por departamento, por exemplo. • Representa um subconjunto do DW • Pode ser feito de duas formas: – Capturando dados dos OLTPs • Mais rápido • Pode haver problemas com padronização de dados – Capturando dados do DW • Mais eficiente • Mais demorado
  • 19. Nós somos Data Marts! Data Marts (2) Nós somos Data Marts! Nós somos Data Marts!
  • 20. Arquiteturas de DW • Fatores que determinam a arquitetura: – Infra-estrutura – Recursos – Abrangência – Capacitação da equipe • Muitas vezes a arquitetura é uma combinação das arquiteturas disponíveis e as abordagens de implementação.
  • 21. Arquitetura Global Global = Por toda a empresa Arquitetura global distribuída Dados Operacionais e Externos Arquitetura global centralizada
  • 22. Arquitetura de DM independente Dados Operacionais e Externos Data Marts Stand Alone sem foco coorporativo nenhum
  • 23. Arquitetura de DM integrada Dados Operacionais e Externos
  • 24. Tipos de Implementação • A escolha por um tipo é influenciada por fatores como: – Infra-estrutura de TI – Arquitetura escolhida – Escopo – Recursos disponíveis ($) – Necessidade ou não de acesso corporativo dos dados – Velocidade de implementação
  • 25. Abordagem Top Down DM DM ODS DW . . . DM Data Mining OLAP
  • 26. • Vantagens • Desvantagens – Herança de - Implementação longa Arquitetura - Alta taxa de risco – Repositório - Expectativas Centralizado – Centralização de regras
  • 27. Abordagem Bottom Up DM 1 Data Warehouse Sistemas Operacionais DM DM DM 2 DM . . . DM DM n
  • 28. • Vantagens • Desvantagens – Implementação - Perigo de Legamarts (Dificultam futuras rápida integrações) – Retorno rápido - Desafio de possuir – Herança incremental visão do empreendimento - A maldição do sucesso
  • 29. Granularidade dos Dados Alto nível de detalhes Baixo nível de detalhes Baixo nível de granularidade Alto nível de granularidade Exemplo Exemplo Detalhe de cada transação Sumário das transações de de venda de um vendedor venda de um vendedor realizada durante um mês realizadas durante um mês Data 50 registros Mês Hora Vendedor Vendedor por mês Valor Valor
  • 30. Modelagem Multidimensional • Fato – Representa um item, uma transação ou um evento de negócio. – Reflete a evolução dos negócios – Exemplo: “O índice de aprovação da cadeira de Cálculo I vem aumentando nos últimos dois anos” • Dimensões – Elementos que participam de um fato – Tempo, Localização, Clientes, Vendedores, etc. • Medidas (Variáveis) – Atributos numéricos que representam um fato – Valor de vendas, número de alunos aprovados, etc.
  • 31. Star Schema Dimensão Data Dimensão Dimensão Cliente Região Fato de Vendas Dimensão Dimensão Vendedor Produto
  • 32. Snowflake Schema Dimensão Cidade Dimensão Semana Dimensão Data Dimensão Dimensão Mês Estado Dimensão Dimensão Cliente Região Fato de Vendas Dimensão Tipo do Produto Dimensão Dimensão Vendedor Produto
  • 33. Estudo de Caso • Uma grande distribuidora de filmes possui um sistema para controle dos seus filmes • O sistema atual controla os filmes por salas de cinema onde são exibidos, tendo informações sobre capacidade da sala, localização regional, assim como a bilheteria de cada sessão.
  • 34. O sistema atual • O sistema controla os atores que participam dos filmes • Diretor do filme • Filmes são classificados por gênero e por origem • Quantidade de público e valor arrecadado pela bilheteria
  • 35. Necessidades Executivas (1) • Acompanhar a evolução do público e valor arrecadado por região do país, estado e cidade, classificados por gênero e sala de cinema • Também é necessário avaliar a evolução de filmes por ator e por diretor
  • 36. Necessidades Executivas (2) • Saber quais diretores atraem mais publico e em que gênero está esse público. • O tempo é fator fundamental de análise, pois é preciso saber quais períodos do ano possuem mais público por gênero, ator e diretor, e geograficamente.
  • 37. Modelo do DW solicitado
  • 38. Data Mining “É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.” • Jeff Jonas e Jim Harper
  • 39. Data Mining “É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”
  • 40. Simplificando... • Torture os dados até eles confessarem ... Se você torturar o suficiente, eles irão confessar tudo
  • 41. Dados, Informações e Conhecimento • “…dados são puramente sintáticos enquanto informação contém, necessariamente, semântica. Conhecimento é uma abstração interior (…) relacionada a alguma coisa existente no mundo real e do qual temos uma experiência direta”. – Setzer
  • 42. Objetivos da DM • Descobrir PADRÕES – Representar informações úteis para a empresa – Caso da Cerveja e da Fralda • Descrever – Explicar resultados ou valores obtidos em determinados dados ou negócios • Prever – Antecipar o comportamento ou valor futuro de algum fenômeno com base em conhecimento prévio.
  • 43. Como implementar Data Mining • Algoritmos baseados em redes neurais – Processamento de dados de maneira semelhante ao cérebro humano – Decisões baseadas na aprendizagem • Algoritmos estatísticos – Utilizados na análise de dados, a fim de encontrar padrões e correlações entre eles • Algoritmos de Aprendizado – Extrair padrões a partir da interação com o ambiente
  • 44. Aplicações de Data Mining • Cross-Selling – Identificar associação entre produtos • Up-Selling – Identificar potenciais clientes para determinados produtos • Fidelização – Descobrir fatores associados a perda de clientes
  • 45. Barreiras do uso de DW e DM • Altos Custos • Ferramentas muito complexas • Preparação dos dados (80% do trabalho) • Dificuldade em estimar o retorno do investimento
  • 46. Concluindo... “Um projeto de Data Warehouse nunca termina. As fontes de dados mudam, as necessidades dos usuários também mudam, o número deles aumenta, as regras de mercado se alteram, os usuários demandarão mais informações. Enfim, Data Warehousing não é o OBJETIVO; é o CAMINHO”
  • 47. Referências • Tecnologia e Projeto de Data Warehouse – Felipe Nery Rodrigues Machado • Tecnologia de Data Warehouse – Rafael Ramos Batista de Figueiredo • Um projeto de Data Warehouse – Angelo Luiz de Bortoli • Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio Carlos Gay Thomé