SlideShare une entreprise Scribd logo
1  sur  45
16/9/2012   ©2010 | MATA60 Banco de Dados   1




   DATA WAREHOUSE E
   DATA MINING
16/9/2012   ©2010 | MATA60 Banco de Dados   2




   DATA WAREHOUSE
16/9/2012                    ©2010 | MATA60 Banco de Dados   3




Conceito
• “Coleção de dados orientada a assunto, integrada, não-
  volátil e variante no tempo, utilizada para tomada de
  decisões”. W. H. Inmon

• "a copy of transaction data specifically structured for
  query and analysis“ R. Kimball

• “Repositório estruturado e corporativo de dados
  orientados a assunto, variantes no tempo e históricos,
  usados para recuperação de informações e suporte à
  decisão. O DW armazena atômicos e sumarizados”.
  Definição de DW da Oracle
16/9/2012      ©2010 | MATA60 Banco de Dados   4




Propriedades
16/9/2012         ©2010 | MATA60 Banco de Dados   5




Fluxo dos Dados
16/9/2012                        ©2010 | MATA60 Banco de Dados   6




Modelagem dos Dados
• Objetivos da Modelagem Dimensional


   • Fornecer uma imagem global da realidade do negócio
   • Exibir informações em níveis apropriados de detalhes (resumido
     ou detalhado)
   • Otimizar o processamento de consultas complexas
   (Modelo Estrela ou Flocos de Neve)
   • Integrar dados de diversas fontes em uma única BD para facilitar a
     geração de relatórios
16/9/2012                        ©2010 | MATA60 Banco de Dados    7




Modelagem dos Dados
• Modelo Relacional

   • Usado para identificar relacionamentos entre tipos de relações
   • Visa remover a redundância de dados
   • Processamento de Transações On-Line (OLTP)


• Modelo Dimensional

   • Apresenta dados em uma estrutura intuitiva permitindo alta
     performance de acesso
   • Independe da representação física dos dados
   • Organiza dados em tabelas de fatos e dimensões
   • Processamento Analítico On-Line (OLAP)
16/9/2012         ©2010 | MATA60 Banco de Dados   8


Ambiente Operacional * Ambiente
Analítico
16/9/2012      ©2010 | MATA60 Banco de Dados   9




Modelo Dimensional
16/9/2012         ©2010 | MATA60 Banco de Dados   10




Tabela de Fatos
16/9/2012      ©2010 | MATA60 Banco de Dados   11




Tabela de Dimensão
16/9/2012     ©2010 | MATA60 Banco de Dados   12




Star Scheme
16/9/2012     ©2010 | MATA60 Banco de Dados   13




Snowflake Schema
16/9/2012                              ©2010 | MATA60 Banco de Dados    14




Data Mart
• Definição
  • DM é um subconjunto de um DW
       • Subconjunto do DW que satisfaz os requisitos de um certo tema ou
         atividade de negócio
       • Projetado para um dado grupo de usuários
• Específico a um assunto particular ou atividade de negócio
• Pode ser visto como uma solução tática
• Pode ser construído antes ou depois do DW
  • Antes ⇒ pode representar fragmentos de dados, mas reduz a
    complexidade de desenvolvimento
  • Depois ⇒ produz uma visão integrada dos dados, mas aumenta a
    complexidade de desenvolvimento
• Abordagem atual consiste em construir primeiro os DM, mas
  garantindo a consistência dos dados!
16/9/2012   ©2010 | MATA60 Banco de Dados   15




DW * DM
16/9/2012      ©2010 | MATA60 Banco de Dados   16




Data Warehousing
16/9/2012                                 ©2010 | MATA60 Banco de Dados   17




ETL e ODS
• Ferramentas de ETL

   • Responsáveis pela conversão dos dados do ambiente operacional
     para o de suporte à decisão
   • Realizam Acesso, Extração, Transformação, Validação e Carga
     dos dados


• Operational Datastore (ODS)
  • Repositório de dados operacionais integrados
  • Benefícios
       • Otimiza a criação do DW
       • Possibilita a realização de consultas relacionais sobre dados históricos
       • Permite interações de tempo real (e.g. gerenciamento de
            relacionamentos de cliente)
16/9/2012     ©2010 | MATA60 Banco de Dados   18




Abordagem Top-Down
16/9/2012     ©2010 | MATA60 Banco de Dados   19




Abordagem Bottom-Up
16/9/2012                          ©2010 | MATA60 Banco de Dados   20




OLAP
• O que é OLAP (On-Line Analytical Processing)?


   • Conjunto de tecnologias projetadas para analisar e acessar dados
       típicos de suporte a decisão que estão no DW
   •    Fornece dados em alto nível (totais,médias,min..)
   •    Acessa vários registros
   •   Tem alto desempenho e consultas fáceis e interativas
   •    Lida com dados históricos (dimensão temporal)
   •    Oferece visões multidimensionais (perspectivas)
16/9/2012                      ©2010 | MATA60 Banco de Dados   21




OLAP
• Cubo Multidimensional (Abstração do DW)
  • Metáfora de uma abordagem multidimensional para visualização e
    organização dos dados
  • Várias dimensões podem ser usadas simultaneamente
  • Dados são manipulados mais rapidamente e facilmente
    (agregação em níveis de hierarquia)
16/9/2012                    ©2010 | MATA60 Banco de Dados   22




Operações OLAP
• Drill Down e Roll Up (ou Drill Up)
16/9/2012                        ©2010 | MATA60 Banco de Dados   23




Operações OLAP
• Rotação
  • Técnica que gira o cubo, permitindo ter diferentes visões dos
    dados
16/9/2012                         ©2010 | MATA60 Banco de Dados   24




Operações OLAP
• Slice and Dice
  • Técnica que fatia o cubo, permitindo restringir a análise aos dados,
    sem inversão de eixos
  • “Semelhante” a cláusula WHERE de SQL
16/9/2012   ©2010 | MATA60 Banco de Dados   25




MDX
16/9/2012    ©2010 | MATA60 Banco de Dados   26




   DATA MINING
16/9/2012                    ©2010 | MATA60 Banco de Dados   27




Conceito
• Mineração de dados é a busca de informações valiosas em
  grandes bancos de dados. É um esforço de cooperação entre
  homens e computadores. Os homens projetam bancos de
  dados, descrevem problemas e definem seus objetivos. Os
  computadores verificam dados e procuram padrões que casem
  com as metas estabelecidas pelos homens [WI99].

• Mineração de dados é o processo de proposição de várias
  consultas e extração de informações úteis, padrões e
  tendências, frequentemente desconhecidos, a partir de grande
  quantidade de dados armazenada em bancos de dados
  [BT99].

• Mineração de dados, de forma simples, é o processo de
  extração ou mineração de conhecimento em grandes
  quantidades de dados [HK01].
©2010 | Mauricio Cesar Santos da Purificação | Grupo
   16/9/2012
                                                    DW-UFBA
                                                                                       28




   Áreas de Aplicações Potenciais
• Vendas e Marketing
   • Identificar padrões de comportamento de consumidores
   • Associar comportamentos à características demográficas de consumidores
   • Campanhas de marketing direto (mailing campaigns)
   • Identificar consumidores “leais”
• Bancos
  • Identificar padrões de fraudes (cartões de crédito)
  • Identificar características de correntistas
  • Mercado Financeiro ($$$)
• Médica
  • Comportamento de pacientes
  • Identificar terapias de sucessos para diferentes tratamentos
  • Fraudes em planos de saúdes
  • Comportamento de usuários de planos de saúde
16/9/2012                   ©2010 | MATA60 Banco de Dados   29




Data Mining e KDD
• KDD utiliza algoritmos de data mining para extrair
  padrões classificados como “conhecimento”.

• Incorpora tarefas como escolha do algoritmo adequado,
  processamento e amostragem de dados e interpretação
  de resultados;
16/9/2012       ©2010 | MATA60 Banco de Dados   30




KDD - Contextualização
16/9/2012     ©2010 | MATA60 Banco de Dados   31




KDD e Data Warehouse
16/9/2012                        ©2010 | MATA60 Banco de Dados   32




Pré-Processamento
• Atributos com representação inadequada para tarefa e algoritmo.

• Atributos cujos valores não tenham informações adequadas.

• Excesso de atributos (podem ser redundantes ou desnecessários).

• Atributos insuficientes.

• Excesso de instancias (afetam tempo de processamento).

• Instâncias insuficientes.

• Instâncias incompletas (sem valores para alguns atributos).

• Assim como a mineração de dados em si, requer conhecimento
  sobre os dados e algoritmo que será usado!
16/9/2012    ©2010 | MATA60 Banco de Dados   33




   TAREFAS DE DATA MINING
16/9/2012                           ©2010 | MATA60 Banco de Dados   34




Análise de Regras de Associação
• Exemplo:


   • “Clientes que compram pão também compram leite” representa
      uma regra de associação que reflete um padrão de comportamento
      dos clientes do supermercado.

   • Descobrir regras de associação entre produtos comprados por
      clientes numa mesma compra pode ser útil para melhorar a
      organização das prateleiras, facilitar (ou dificultar) as compras do
      usuário ou induzi-lo a comprar mais.
16/9/2012                         ©2010 | MATA60 Banco de Dados   35




Análise de Padrões Sequenciais
• Exemplo:


   • A sequência < {carro}, {pneu, toca-fitas} > representa o padrão
      Clientes que compram carro, tempos depois compram pneu e toca-
      fitas de carro.

   • Descobrir tais padrões sequenciais em dados temporais pode ser
      útil em campanhas de marketing, por exemplo.
16/9/2012                           ©2010 | MATA60 Banco de Dados   36




Classificação e Predição
• Exemplo:


   • Suponha que o gerente do supermercado está interessado em
      descobrir que tipo de características de seus clientes os
      classificam em bom comprador ou mau comprador.

   • Um modelo de classificação poderia incluir a seguinte regra:
      Clientes da faixa econômica B, com idade entre 50 e 60 são maus
      compradores.
16/9/2012                 ©2010 | MATA60 Banco de Dados   37




Classificação e Predição
• Em algumas aplicações, o usuário está mais interessado
  em predizer alguns valores ausentes em seus dados, em
  vez de descobrir classes de objetos. Isto ocorre
  sobretudo quando os valores que faltam são numéricos.

• Neste caso, a tarefa de mineração é denominada
  Predição.
16/9/2012                         ©2010 | MATA60 Banco de Dados   38




Análise de Clusters (Agrupamentos)
• Exemplo:


   • Poderíamos aplicar análise de clusters sobre o banco de dados de
      um supermercado a fim de identificar grupos homogêneos de
      clientes;

   • Por exemplo, clientes aglutinados em determinados pontos da
      cidade costumam vir ao supermercado aos domingos, enquanto
      clientes aglutinados em outros pontos da cidade costumam fazer
      suas compras às segundas-feira;
16/9/2012                  ©2010 | MATA60 Banco de Dados   39




Análise de Outliers
• Um banco de dados pode conter dados que não
  apresentam o comportamento geral da maioria. Estes
  dados são denominados outliers(exceções).

• Muitos métodos de mineração descartam estes outliers
  como sendo ruído indesejado.

• Entretanto, em algumas aplicações, tais como detecção
  de fraudes, estes eventos raros podem ser mais
  interessantes do que eventos que ocorrem regularmente.
16/9/2012    ©2010 | MATA60 Banco de Dados   40




   TÉCNICAS DE DATA
   MINING
16/9/2012                       ©2010 | MATA60 Banco de Dados         41




Árvores de Decisão
 • Representações simples do conhecimento
 • Utilização de regras condicionais
 • A partir de um conjunto de valores decide SIM ou NÃO
 • Mais rápida e mais compreensível que redes neurais
 • Exemplo: Sair ou não de acordo com o tempo
                         Tempo
                                                        Predicado objetivo:
                                                          Sair ou Não Sair
               Nublado     Ensolarado         Chuvoso

              Umidade        Sair            Muito vento
            Alta    Normal                Sim                   Não

        Ñ Sair      Sair                Ñ Sair              Sair
16/9/2012                              ©2010 | MATA60 Banco de Dados         42




 Árvores de Decisão
      Classificação de um indivíduo com risco de ter ou não crédito
                        Renda > R$ 4.000,00

                          SIM                          NÃO        Predicado objetivo:
                                                                     Crédito ou Não

        Dívida < 10% da renda ?                       Dívida = 0%


             SIM                  NÃO         NÃO                       SIM


Risco de ter crédito Risco de não ter crédito Risco de ter crédito

             Nesta árvore de decisões, regras são induzidas nos padrões dos
                dados e cria-se uma hierarquia de indicações “se-então”.
16/9/2012                                       ©2010 | MATA60 Banco de Dados   43




Redes Neurais
• Redes Neurais:


      • Para construir um modelo neural, nós primeiramente
        "adestramos" a rede em um dataset de treinamento e então
        usamos a rede já treinada para fazer predições.
      • Problemas:
            • Não retorna informação a priori
            • Não pode ser treinada em uma grande base de dados
            • Entrada não pode ser dados alfanuméricos (mapear para numérico)
            • Nenhuma explanação dos dados é fornecida (caixa preta)
16/9/2012                           ©2010 | MATA60 Banco de Dados   44




Técnicas
 • Redes Neurais:
   • Exemplo prático: risco de câncer




                      Data mining - Clementine User Guide
16/9/2012                        ©2010 | MATA60 Banco de Dados    45




Técnicas
• Redes Neurais: - 2o Exemplo
                                                                        Nível
      RENDA         DÉBITO          IDADE               REG. DE          de
                                                      PAGAMENTO        entrada




                                                                        Nível
                                                                       oculto

                     Risco           Risco de
                     de ter           não ter
                    crédito          crédito                            Nível
                                                                         de
         As redes neurais usam seus dados de entrada.                   saída
   Atribui pesos nas conecções entre os atributos (neurônios).
  E obtém um resultado (risco de ter ou não crédito) no nível de

Contenu connexe

Tendances

Apresentação de Business Intelligence
Apresentação de Business IntelligenceApresentação de Business Intelligence
Apresentação de Business IntelligenceJuliana Maria Lopes
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
38664419 artigo-data warehouse
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehousediochel
 
Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)m4rkSpinelli
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmonguest2308b5
 
Data warehousing
Data warehousingData warehousing
Data warehousingacistec
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisãoEcoplas
 
Pg20235 rf20222vp20208
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208rikardojsf
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...fabiolagrijo
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Caio Moreno
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BIpichiliani
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014Tableau Software
 

Tendances (20)

Business Intelligence - Data Warehouse
Business Intelligence - Data WarehouseBusiness Intelligence - Data Warehouse
Business Intelligence - Data Warehouse
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Apresentação de Business Intelligence
Apresentação de Business IntelligenceApresentação de Business Intelligence
Apresentação de Business Intelligence
 
OLAP
OLAPOLAP
OLAP
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
 
38664419 artigo-data warehouse
38664419 artigo-data warehouse38664419 artigo-data warehouse
38664419 artigo-data warehouse
 
Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)Sistemas de Informação (SAD / OLAP)
Sistemas de Informação (SAD / OLAP)
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Tomada decisão
Tomada decisãoTomada decisão
Tomada decisão
 
Pg20235 rf20222vp20208
Pg20235 rf20222vp20208Pg20235 rf20222vp20208
Pg20235 rf20222vp20208
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
Aplicação de Business Intelligence em Laboratórios Clínicos como ferramenta p...
 
datawarehouse2
datawarehouse2datawarehouse2
datawarehouse2
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BI
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 

Similaire à Data Warehouse e Data Mining

Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemJoão Gabriel Lima
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dadosEdvaldo Castro
 
Poc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreuxPoc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreuxchevreux
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Banco de Dados - Conceitos
Banco de Dados - ConceitosBanco de Dados - Conceitos
Banco de Dados - Conceitosssuser69006f
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesRodolfo Mendes
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealDenodo
 
Data Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaDenodo
 

Similaire à Data Warehouse e Data Mining (20)

Sistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligenceSistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
 
Aula Data Mining
Aula Data MiningAula Data Mining
Aula Data Mining
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Bancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagemBancos de dados no sql – uma nova abordagem
Bancos de dados no sql – uma nova abordagem
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
 
Poc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreuxPoc1 apresentacao parcial_henriquechevreux
Poc1 apresentacao parcial_henriquechevreux
 
Data mesh-pt
Data mesh-ptData mesh-pt
Data mesh-pt
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Conceitos DW
Conceitos DWConceitos DW
Conceitos DW
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Banco de Dados - Conceitos
Banco de Dados - ConceitosBanco de Dados - Conceitos
Banco de Dados - Conceitos
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
 
Sad01 elvis
Sad01 elvisSad01 elvis
Sad01 elvis
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
 
Business Analytics
Business AnalyticsBusiness Analytics
Business Analytics
 
Data Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudança
 

Plus de Mauricio Cesar Santos da Purificação

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroMauricio Cesar Santos da Purificação
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 

Plus de Mauricio Cesar Santos da Purificação (20)

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
R para Iniciantes
R para IniciantesR para Iniciantes
R para Iniciantes
 
Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
 
Pitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus PartyPitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus Party
 
Pitch BestPoint - Campus Party
Pitch BestPoint - Campus PartyPitch BestPoint - Campus Party
Pitch BestPoint - Campus Party
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Flyer BestPoint
Flyer BestPointFlyer BestPoint
Flyer BestPoint
 
Pitch BestPoint
Pitch BestPointPitch BestPoint
Pitch BestPoint
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TIOxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
 
Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015
 
BestPoint
BestPointBestPoint
BestPoint
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…
 
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
 
Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?
 
Derivação de Modelos ER
Derivação de Modelos ERDerivação de Modelos ER
Derivação de Modelos ER
 
Business Intelligence - Prática e Experiências
Business Intelligence - Prática e ExperiênciasBusiness Intelligence - Prática e Experiências
Business Intelligence - Prática e Experiências
 

Dernier

ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 

Dernier (6)

ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 

Data Warehouse e Data Mining

  • 1. 16/9/2012 ©2010 | MATA60 Banco de Dados 1 DATA WAREHOUSE E DATA MINING
  • 2. 16/9/2012 ©2010 | MATA60 Banco de Dados 2 DATA WAREHOUSE
  • 3. 16/9/2012 ©2010 | MATA60 Banco de Dados 3 Conceito • “Coleção de dados orientada a assunto, integrada, não- volátil e variante no tempo, utilizada para tomada de decisões”. W. H. Inmon • "a copy of transaction data specifically structured for query and analysis“ R. Kimball • “Repositório estruturado e corporativo de dados orientados a assunto, variantes no tempo e históricos, usados para recuperação de informações e suporte à decisão. O DW armazena atômicos e sumarizados”. Definição de DW da Oracle
  • 4. 16/9/2012 ©2010 | MATA60 Banco de Dados 4 Propriedades
  • 5. 16/9/2012 ©2010 | MATA60 Banco de Dados 5 Fluxo dos Dados
  • 6. 16/9/2012 ©2010 | MATA60 Banco de Dados 6 Modelagem dos Dados • Objetivos da Modelagem Dimensional • Fornecer uma imagem global da realidade do negócio • Exibir informações em níveis apropriados de detalhes (resumido ou detalhado) • Otimizar o processamento de consultas complexas (Modelo Estrela ou Flocos de Neve) • Integrar dados de diversas fontes em uma única BD para facilitar a geração de relatórios
  • 7. 16/9/2012 ©2010 | MATA60 Banco de Dados 7 Modelagem dos Dados • Modelo Relacional • Usado para identificar relacionamentos entre tipos de relações • Visa remover a redundância de dados • Processamento de Transações On-Line (OLTP) • Modelo Dimensional • Apresenta dados em uma estrutura intuitiva permitindo alta performance de acesso • Independe da representação física dos dados • Organiza dados em tabelas de fatos e dimensões • Processamento Analítico On-Line (OLAP)
  • 8. 16/9/2012 ©2010 | MATA60 Banco de Dados 8 Ambiente Operacional * Ambiente Analítico
  • 9. 16/9/2012 ©2010 | MATA60 Banco de Dados 9 Modelo Dimensional
  • 10. 16/9/2012 ©2010 | MATA60 Banco de Dados 10 Tabela de Fatos
  • 11. 16/9/2012 ©2010 | MATA60 Banco de Dados 11 Tabela de Dimensão
  • 12. 16/9/2012 ©2010 | MATA60 Banco de Dados 12 Star Scheme
  • 13. 16/9/2012 ©2010 | MATA60 Banco de Dados 13 Snowflake Schema
  • 14. 16/9/2012 ©2010 | MATA60 Banco de Dados 14 Data Mart • Definição • DM é um subconjunto de um DW • Subconjunto do DW que satisfaz os requisitos de um certo tema ou atividade de negócio • Projetado para um dado grupo de usuários • Específico a um assunto particular ou atividade de negócio • Pode ser visto como uma solução tática • Pode ser construído antes ou depois do DW • Antes ⇒ pode representar fragmentos de dados, mas reduz a complexidade de desenvolvimento • Depois ⇒ produz uma visão integrada dos dados, mas aumenta a complexidade de desenvolvimento • Abordagem atual consiste em construir primeiro os DM, mas garantindo a consistência dos dados!
  • 15. 16/9/2012 ©2010 | MATA60 Banco de Dados 15 DW * DM
  • 16. 16/9/2012 ©2010 | MATA60 Banco de Dados 16 Data Warehousing
  • 17. 16/9/2012 ©2010 | MATA60 Banco de Dados 17 ETL e ODS • Ferramentas de ETL • Responsáveis pela conversão dos dados do ambiente operacional para o de suporte à decisão • Realizam Acesso, Extração, Transformação, Validação e Carga dos dados • Operational Datastore (ODS) • Repositório de dados operacionais integrados • Benefícios • Otimiza a criação do DW • Possibilita a realização de consultas relacionais sobre dados históricos • Permite interações de tempo real (e.g. gerenciamento de relacionamentos de cliente)
  • 18. 16/9/2012 ©2010 | MATA60 Banco de Dados 18 Abordagem Top-Down
  • 19. 16/9/2012 ©2010 | MATA60 Banco de Dados 19 Abordagem Bottom-Up
  • 20. 16/9/2012 ©2010 | MATA60 Banco de Dados 20 OLAP • O que é OLAP (On-Line Analytical Processing)? • Conjunto de tecnologias projetadas para analisar e acessar dados típicos de suporte a decisão que estão no DW • Fornece dados em alto nível (totais,médias,min..) • Acessa vários registros • Tem alto desempenho e consultas fáceis e interativas • Lida com dados históricos (dimensão temporal) • Oferece visões multidimensionais (perspectivas)
  • 21. 16/9/2012 ©2010 | MATA60 Banco de Dados 21 OLAP • Cubo Multidimensional (Abstração do DW) • Metáfora de uma abordagem multidimensional para visualização e organização dos dados • Várias dimensões podem ser usadas simultaneamente • Dados são manipulados mais rapidamente e facilmente (agregação em níveis de hierarquia)
  • 22. 16/9/2012 ©2010 | MATA60 Banco de Dados 22 Operações OLAP • Drill Down e Roll Up (ou Drill Up)
  • 23. 16/9/2012 ©2010 | MATA60 Banco de Dados 23 Operações OLAP • Rotação • Técnica que gira o cubo, permitindo ter diferentes visões dos dados
  • 24. 16/9/2012 ©2010 | MATA60 Banco de Dados 24 Operações OLAP • Slice and Dice • Técnica que fatia o cubo, permitindo restringir a análise aos dados, sem inversão de eixos • “Semelhante” a cláusula WHERE de SQL
  • 25. 16/9/2012 ©2010 | MATA60 Banco de Dados 25 MDX
  • 26. 16/9/2012 ©2010 | MATA60 Banco de Dados 26 DATA MINING
  • 27. 16/9/2012 ©2010 | MATA60 Banco de Dados 27 Conceito • Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99]. • Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99]. • Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].
  • 28. ©2010 | Mauricio Cesar Santos da Purificação | Grupo 16/9/2012 DW-UFBA 28 Áreas de Aplicações Potenciais • Vendas e Marketing • Identificar padrões de comportamento de consumidores • Associar comportamentos à características demográficas de consumidores • Campanhas de marketing direto (mailing campaigns) • Identificar consumidores “leais” • Bancos • Identificar padrões de fraudes (cartões de crédito) • Identificar características de correntistas • Mercado Financeiro ($$$) • Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
  • 29. 16/9/2012 ©2010 | MATA60 Banco de Dados 29 Data Mining e KDD • KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. • Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
  • 30. 16/9/2012 ©2010 | MATA60 Banco de Dados 30 KDD - Contextualização
  • 31. 16/9/2012 ©2010 | MATA60 Banco de Dados 31 KDD e Data Warehouse
  • 32. 16/9/2012 ©2010 | MATA60 Banco de Dados 32 Pré-Processamento • Atributos com representação inadequada para tarefa e algoritmo. • Atributos cujos valores não tenham informações adequadas. • Excesso de atributos (podem ser redundantes ou desnecessários). • Atributos insuficientes. • Excesso de instancias (afetam tempo de processamento). • Instâncias insuficientes. • Instâncias incompletas (sem valores para alguns atributos). • Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!
  • 33. 16/9/2012 ©2010 | MATA60 Banco de Dados 33 TAREFAS DE DATA MINING
  • 34. 16/9/2012 ©2010 | MATA60 Banco de Dados 34 Análise de Regras de Associação • Exemplo: • “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado. • Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.
  • 35. 16/9/2012 ©2010 | MATA60 Banco de Dados 35 Análise de Padrões Sequenciais • Exemplo: • A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca- fitas de carro. • Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.
  • 36. 16/9/2012 ©2010 | MATA60 Banco de Dados 36 Classificação e Predição • Exemplo: • Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador. • Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.
  • 37. 16/9/2012 ©2010 | MATA60 Banco de Dados 37 Classificação e Predição • Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos. • Neste caso, a tarefa de mineração é denominada Predição.
  • 38. 16/9/2012 ©2010 | MATA60 Banco de Dados 38 Análise de Clusters (Agrupamentos) • Exemplo: • Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes; • Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;
  • 39. 16/9/2012 ©2010 | MATA60 Banco de Dados 39 Análise de Outliers • Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções). • Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado. • Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.
  • 40. 16/9/2012 ©2010 | MATA60 Banco de Dados 40 TÉCNICAS DE DATA MINING
  • 41. 16/9/2012 ©2010 | MATA60 Banco de Dados 41 Árvores de Decisão • Representações simples do conhecimento • Utilização de regras condicionais • A partir de um conjunto de valores decide SIM ou NÃO • Mais rápida e mais compreensível que redes neurais • Exemplo: Sair ou não de acordo com o tempo Tempo Predicado objetivo: Sair ou Não Sair Nublado Ensolarado Chuvoso Umidade Sair Muito vento Alta Normal Sim Não Ñ Sair Sair Ñ Sair Sair
  • 42. 16/9/2012 ©2010 | MATA60 Banco de Dados 42 Árvores de Decisão Classificação de um indivíduo com risco de ter ou não crédito Renda > R$ 4.000,00 SIM NÃO Predicado objetivo: Crédito ou Não Dívida < 10% da renda ? Dívida = 0% SIM NÃO NÃO SIM Risco de ter crédito Risco de não ter crédito Risco de ter crédito Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”.
  • 43. 16/9/2012 ©2010 | MATA60 Banco de Dados 43 Redes Neurais • Redes Neurais: • Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. • Problemas: • Não retorna informação a priori • Não pode ser treinada em uma grande base de dados • Entrada não pode ser dados alfanuméricos (mapear para numérico) • Nenhuma explanação dos dados é fornecida (caixa preta)
  • 44. 16/9/2012 ©2010 | MATA60 Banco de Dados 44 Técnicas • Redes Neurais: • Exemplo prático: risco de câncer Data mining - Clementine User Guide
  • 45. 16/9/2012 ©2010 | MATA60 Banco de Dados 45 Técnicas • Redes Neurais: - 2o Exemplo Nível RENDA DÉBITO IDADE REG. DE de PAGAMENTO entrada Nível oculto Risco Risco de de ter não ter crédito crédito Nível de As redes neurais usam seus dados de entrada. saída Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível de