SlideShare une entreprise Scribd logo
1  sur  46
Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
Custo de armazenamento Poder de armazenamento Bancos de dados  Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004].  Introdução
Visão Geral
KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
Histórico Visão Geral
Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
Etapa para extrações das informações(KDD)
Limpeza dos dados:  Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas.  Integração dos dados:  Unificação de todas as fontes de dados em uma única e consolidada fonte.  Etapa para extrações das informações
Seleção dos dados:  selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
Etapas 1 – 4:  Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
Etapa para extrações das informações
Tarefas de Mineração
Tarefas de mineração
Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais:  p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
Técnicas para Mineração
Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada  Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
Ferramentas de Mineração de Dados
Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
Exemplo Clássico
O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo 	@attributeoutlook {sunny, overcast, rainy} 	@attributetemperaturereal%Atributo e tipo 	@attributehumidity real 	@attributewindy {TRUE, FALSE} 	@attribute play {yes, no} 	@data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão  <=75  >75
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny |   humidity <= 75: yes (2.0) |   humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy |   windy = TRUE: no (2.0) |   windy = FALSE: yes (3.0) NumberofLeaves  : 	5 Sizeofthetree : 	8
Algoritmo para minerar regras de associação. Weka + Apriori 	IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não  IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim	IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
Weka - Apriori Best rules found:  1.temperature=cool humidity=normal windy=FALSE     ==> play=yes 		conf:(1)  2. temperature=cool windy=FALSE play=yes   	  ==> humidity=normal     conf:(1)  3. outlook=overcast temperature=hot windy=FALSE  ==> play=yes     conf:(1)  4. temperature=cool windy=FALSE   	==> humidity=normal play=yes     conf:(1)  5. outlook=rainy temperature=mild windy=FALSE  ==> play=yes     conf:(1)
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
Áreas de Aplicação
Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros
Conclusão
Obrigado Perguntas?

Contenu connexe

Tendances

Empreendedorismo 1 e 2
Empreendedorismo 1 e 2Empreendedorismo 1 e 2
Empreendedorismo 1 e 2
siqueiralc
 

Tendances (20)

Introdução a Banco de Dados (Parte 2)
Introdução a Banco de Dados (Parte 2)Introdução a Banco de Dados (Parte 2)
Introdução a Banco de Dados (Parte 2)
 
Aula 5 - A TI nas Organizações
Aula 5 - A TI nas OrganizaçõesAula 5 - A TI nas Organizações
Aula 5 - A TI nas Organizações
 
Governança de TI
Governança de TIGovernança de TI
Governança de TI
 
Aula 02 - Validação de ideias
Aula 02 - Validação de ideiasAula 02 - Validação de ideias
Aula 02 - Validação de ideias
 
Aula 05 empreendedorismo
Aula 05 empreendedorismoAula 05 empreendedorismo
Aula 05 empreendedorismo
 
Empreendedorismo 1 e 2
Empreendedorismo 1 e 2Empreendedorismo 1 e 2
Empreendedorismo 1 e 2
 
Administração financeira e orçamentária
Administração financeira e orçamentáriaAdministração financeira e orçamentária
Administração financeira e orçamentária
 
Eng.ª do Software - 9. Verificação e validação
Eng.ª do Software - 9. Verificação e validaçãoEng.ª do Software - 9. Verificação e validação
Eng.ª do Software - 9. Verificação e validação
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dados
 
Analise de Requisitos Software
Analise de Requisitos SoftwareAnalise de Requisitos Software
Analise de Requisitos Software
 
Empreendedorismo E Inovação
Empreendedorismo E InovaçãoEmpreendedorismo E Inovação
Empreendedorismo E Inovação
 
O papel e o ambiente da administração financeira
O papel e o ambiente da administração financeiraO papel e o ambiente da administração financeira
O papel e o ambiente da administração financeira
 
Banco de Dados - Modelo Lógico, Chave primária e Chave estrangeira
Banco de Dados - Modelo Lógico, Chave primária e Chave estrangeiraBanco de Dados - Modelo Lógico, Chave primária e Chave estrangeira
Banco de Dados - Modelo Lógico, Chave primária e Chave estrangeira
 
tmn - Introdução ao JavaScript
tmn - Introdução ao JavaScripttmn - Introdução ao JavaScript
tmn - Introdução ao JavaScript
 
Gestao do Conhecimento - Praticas de Gestao
Gestao do Conhecimento - Praticas de GestaoGestao do Conhecimento - Praticas de Gestao
Gestao do Conhecimento - Praticas de Gestao
 
Enterprise resource planning (ERP)
Enterprise resource planning (ERP)Enterprise resource planning (ERP)
Enterprise resource planning (ERP)
 
Empreendedorismo - Aula Inicial
Empreendedorismo - Aula InicialEmpreendedorismo - Aula Inicial
Empreendedorismo - Aula Inicial
 
Banco de Dados - Transações e Controle de Concorrência
Banco de Dados - Transações e Controle de ConcorrênciaBanco de Dados - Transações e Controle de Concorrência
Banco de Dados - Transações e Controle de Concorrência
 
Pirâmide de Maslow
Pirâmide de MaslowPirâmide de Maslow
Pirâmide de Maslow
 
Aula 6 - Design e Processo de Design de Interfaces de Usuário
Aula 6 - Design e Processo de Design de Interfaces de UsuárioAula 6 - Design e Processo de Design de Interfaces de Usuário
Aula 6 - Design e Processo de Design de Interfaces de Usuário
 

Similaire à Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados

Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESS
elliando dias
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
Fabrício Barth
 

Similaire à Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data mining
Data miningData mining
Data mining
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Data science
Data scienceData science
Data science
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESS
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Mineração
MineraçãoMineração
Mineração
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Bi microsoft & pentaho
Bi microsoft & pentahoBi microsoft & pentaho
Bi microsoft & pentaho
 
Mongodb workshop cinlug
Mongodb workshop cinlugMongodb workshop cinlug
Mongodb workshop cinlug
 
DDD > Experiências
DDD > ExperiênciasDDD > Experiências
DDD > Experiências
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDB
 
Big data
Big dataBig data
Big data
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 

Plus de Eduardo de Lucena Falcão

Plus de Eduardo de Lucena Falcão (20)

Dais 2015
Dais 2015Dais 2015
Dais 2015
 
Wcga 2015
Wcga 2015Wcga 2015
Wcga 2015
 
Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataforma
 
Minicurso sobre X3D
Minicurso sobre X3DMinicurso sobre X3D
Minicurso sobre X3D
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNS
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
 
Introduction to Cloud Computing
Introduction to Cloud ComputingIntroduction to Cloud Computing
Introduction to Cloud Computing
 
Aula 4 - Introdução a aws
Aula 4 - Introdução a awsAula 4 - Introdução a aws
Aula 4 - Introdução a aws
 
Aula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computingAula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computing
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídos
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvido
 
Apresentação do Curso
Apresentação do CursoApresentação do Curso
Apresentação do Curso
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústria
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
 

Dernier

Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
Natalia Granato
 

Dernier (6)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Assessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdfAssessement Boas Praticas em Kubernetes.pdf
Assessement Boas Praticas em Kubernetes.pdf
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 

Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados

  • 1. Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
  • 2. Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
  • 3. Custo de armazenamento Poder de armazenamento Bancos de dados Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004]. Introdução
  • 5. KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
  • 6. Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
  • 8. Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
  • 9. Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
  • 10. Etapa para extrações das informações(KDD)
  • 11. Limpeza dos dados: Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas. Integração dos dados: Unificação de todas as fontes de dados em uma única e consolidada fonte. Etapa para extrações das informações
  • 12. Seleção dos dados: selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
  • 13. Etapas 1 – 4: Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
  • 14. Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
  • 15. Etapa para extrações das informações
  • 18. Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
  • 19. Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
  • 20. Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
  • 21. Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
  • 22. Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
  • 24. Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
  • 25.
  • 26. C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
  • 27. calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
  • 28. Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
  • 29. Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
  • 31. Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
  • 33. O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo @attributeoutlook {sunny, overcast, rainy} @attributetemperaturereal%Atributo e tipo @attributehumidity real @attributewindy {TRUE, FALSE} @attribute play {yes, no} @data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
  • 34. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão <=75 >75
  • 35. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) NumberofLeaves : 5 Sizeofthetree : 8
  • 36. Algoritmo para minerar regras de associação. Weka + Apriori IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
  • 37. Weka - Apriori Best rules found: 1.temperature=cool humidity=normal windy=FALSE ==> play=yes conf:(1) 2. temperature=cool windy=FALSE play=yes ==> humidity=normal conf:(1) 3. outlook=overcast temperature=hot windy=FALSE ==> play=yes conf:(1) 4. temperature=cool windy=FALSE ==> humidity=normal play=yes conf:(1) 5. outlook=rainy temperature=mild windy=FALSE ==> play=yes conf:(1)
  • 38. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
  • 39. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
  • 40. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
  • 41. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
  • 42. Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
  • 44. Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros