SlideShare une entreprise Scribd logo
1  sur  46
Télécharger pour lire hors ligne
Mineração
Livre de Dados
Agenda
  Apresentação
  Contexto e Motivação
  KDD & Data Warehousing
  Data Mining
  Tarefas de Data Mining
  Técnicas de Data Mining
  Weka




OxenTI Solutions
Apresentação
Mauricio C. Purificação
    Bacharel em Ciência da Computação pela UFBA e Aluno do MBA em
  Administração/Gestão de Negócios na UNIFACS;
    Sócio Fundador e Diretor Administrativo Financeiro da OxenTI;
    Analista de Business Intelligence da Santa Casa de Misericórdia da Bahia;
    Colaborador do CEManTIKA – Grupo de Pesquisa em Sistemas Sensíveis
  ao Contexto LES-DCC-UFBA;
    Principais Interesses de Pesquisa: Business Intelligence, Business
  Analytics, Cloud Computing, Métodos Ágeis, Bancos de Dados Evolutivos.
  http://lattes.cnpq.br/3312807554334758
Adewale A. D’Alcântara
   Bacharelando em Ciência da Computação pela Universidade Federal da
  Bahia;
   Sócio Fundador e Diretor Executivo da OxenTI;
   Especialista no Desenvolvimento de Soluções em CakePHP;
   Principais Interesses de Pesquisa: Business Intelligence, Business
  Analytics, Data Warehousing e Data Mining.



  http://lattes.cnpq.br/5322217410560893
A OxenTI
Somos uma empresa de Tecnologia da Informação
especializada no desenvolvimento de Soluções e
Sistemas para apoiar a Gestão eficaz dos ambientes
de negócios.




OxenTI Solutions
Serviços
Implantação
  Sistemas Integrados de Gestão
     ERP, CRM




OxenTI Solutions
Serviços
Desenvolvimento
  Soluções para Suporte a Decisão
     BI, BA, Data Mining




OxenTI Solutions
Contexto & Motivação
Ponto de
                   Vista Comercial
  Quantidades gigantescas de dados são
  coletados e armazenados em empresas,
  corporações, etc...
      Dados de comércio eletrônico
      Dados de navegação na internet
      Dados de compras de clientes em grandes lojas de
      departamentos, supermercados
      Dados de transações bancárias, ou de cartão de
      crédito
  Computadores mais baratos e mais potentes
  Pressão da competição


OxenTI Solutions
Ponto de
                   Vista Científico
  Dados coletados e armazenados a
  velocidades enormes (GB/hora)
      Sensores remotos em satélites
      Telescópios
      Microarrays gerando dados de expressões de
      genes
      Simulações científicas gerando terabytes de
      dados
  Técnicas tradicionais não apropriadas
  para analisar tais dados
     Ruídos e grande dimensionalidade



OxenTI Solutions
“Leis”,
              Gigantes e Monstros
  Lei de Moore: Capacidade de
  processamento dobra a cada 18 meses
  (CPU, memória, cache)
  Capacidade de armazenamento dobra a
  cada 10 meses
  O que estas duas “leis” combinadas
  produzem?
     Um gap crescente entre nossa habilidade de
     gerar dados e nossa habilidade de fazer uso dele


OxenTI Solutions
KDD – Knowledge
Discovery in Databases
Conceito
                             & Processo
“O processo, não trivial, de extração de informações implícitas,
previamente desconhecidas e potencialmente úteis, a partir dos
dados armazenados em um banco de dados.”
KDD
       &
Data Warehousing
Data Mining
Conceito
Mineração de dados é o processo de
proposição de várias consultas e extração de
informações úteis, padrões e tendências,
frequentemente desconhecidos, a partir de
grande quantidade de dados armazenada
em bancos de dados [BT99]

Mineração de dados, de forma simples, é o
processo de extração ou mineração de
conhecimento em grandes quantidades de
dados [HK01]

OxenTI Solutions
Áreas de
                   Aplicações Potenciais
Vendas e Marketing
   Identificar padrões de comportamento de consumidores
   Associar comportamentos à características demográficas de
   consumidores
   Campanhas de marketing direto (mailing campaigns)
    Identificar consumidores “leais”
Bancos
   Identificar padrões de fraudes (cartões de crédito)
   Identificar características de correntistas
   Mercado Financeiro ($$$)
Médica
   Comportamento de pacientes
   Identificar terapias de sucessos para diferentes tratamentos
   Fraudes em planos de saúdes
   Comportamento de usuários de planos de saúde



OxenTI Solutions
Data Mining
                     & KDD
KDD utiliza algoritmos de data mining para
extrair padrões classificados como
“conhecimento”
Incorpora tarefas como escolha do
algoritmo adequado, processamento e
amostragem de dados e interpretação de
resultados




OxenTI Solutions
Cases
Exemplo (1)
              Fraldas e Cervejas
O que as cervejas tem a ver com as fraldas ?
homens casados, entre 25 e 30 anos
compravam fraldas e/ou cervejas às sextas-
feiras à tarde no caminho do trabalho para
casa
Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das
cervejas
Resultado: o consumo cresceu 30%

OxenTI Solutions
Exemplo (2)
                   Lojas Brasileiras
Aplicou 1 milhão de dólares em técnicas
de data mining
Reduziu de 51000 produtos para 14000
produtos oferecidos em suas lojas
Exemplo de anomalias detectadas:
  Roupas de inverno e guarda chuvas
  encalhadas no nordeste
  Batedeiras 110v a venda em SC onde a
  corrente é 220v

OxenTI Solutions
Exemplo (3)
                Bank Of America
Selecionou entre seus 36 milhões de
clientes
  Aqueles com menor risco de dar calotes
  Tinham filhos com idades entre 18 e 21 anos
  Resultado em três anos o banco lucrou 30
  milhões de dólares com a carteira de
  empréstimos.




OxenTI Solutions
Tarefas de Data Mining
Análise de
              Regras de Associação
Exemplo:
  “Clientes que compram pão também compram
  leite” representa uma regra de associação que
  reflete um padrão de comportamento dos
  clientes do supermercado
  Descobrir regras de associação entre produtos
  comprados por clientes numa mesma compra
  pode ser útil para melhorar a organização das
  prateleiras, facilitar (ou dificultar) as compras do
  usuário ou induzi-lo a comprar mais


OxenTI Solutions
Análise de
              Padrões Sequenciais
Exemplo:
  A sequência < {carro}, {pneu, toca-fitas} >
  representa o padrão Clientes que compram
  carro, tempos depois compram pneu e toca-fitas
  de carro
  Descobrir tais padrões sequenciais em dados
  temporais pode ser útil em campanhas de
  marketing, por exemplo




OxenTI Solutions
Classificação
                       e Predição
Exemplo:
  Suponha que o gerente do supermercado está
  interessado em descobrir que tipo de
  características de seus clientes os classificam em
  bom comprador ou mau comprador
  Um modelo de classificação poderia incluir a
  seguinte regra: Clientes da faixa econômica B,
  com idade entre 50 e 60 são maus compradores




OxenTI Solutions
Classificação
                    e Predição
Em algumas aplicações, o usuário está
mais interessado em predizer alguns
valores ausentes em seus dados, em vez
de descobrir classes de objetos. Isto
ocorre sobretudo quando os valores que
faltam são numéricos
Neste caso, a tarefa de mineração é
denominada Predição


OxenTI Solutions
Análise de Clusters

Exemplo:
  Poderíamos aplicar análise de clusters sobre o
  banco de dados de um supermercado a fim de
  identificar grupos homogêneos de clientes
  Por exemplo, clientes aglutinados em
  determinados pontos da cidade costumam vir
  ao supermercado aos domingos, enquanto
  clientes aglutinados em outros pontos da cidade
  costumam fazer suas compras às segundas-feira



OxenTI Solutions
Análise de Outliers
Um banco de dados pode conter dados que
não apresentam o comportamento geral da
maioria. Estes dados são denominados
outliers(exceções)
Muitos métodos de mineração descartam
estes outliers como sendo ruído indesejado
Entretanto, em algumas aplicações, tais
como detecção de fraudes, estes eventos
raros podem ser mais interessantes do que
eventos que ocorrem regularmente

OxenTI Solutions
Técnicas de Data Mining
Árvore de Decisão
Técnica que constrói um classificador utilizando
uma estrutura de árvore onde os nós folhas
representam as classes e os nós internos
representam um teste sobre um atributo




 OxenTI Solutions
Redes Neurais

 Modelos matemáticos que permite aprendizado e
 generalização
 Esse aprendizado está associado a capacidade de
 adaptar seus parâmetros como consequência da
 sua iteração com o meio externo
 Estrutura similar as redes neurais biológicas




OxenTI Solutions
Redes Neurais




OxenTI Solutions
Waikato Environment for
Knowledge Analysis - Weka
Weka
   Software para data mining/machine learning
escrito em Java (distribuído sob GNU Public License)
   Utilizado em pesquisa e educação
   Principais características:
      Extenso conjunto de rotinas para pré-
      processamento, esquemas de aprendizagem,
      além de métodos de avaliação
      GUIs (inclusive para visualização dos dados)
      Ambiente para comparação de algortimos de
      aprendizagem.



 OxenTI Solutions
Formato de Entrada
@relation heart-disease-simplified

@attribute age numeric
@attribute sex { female, male}
@attribute chest_pain_type { typ_angina, asympt, non_anginal,
  atyp_angina}
@attribute cholesterol numeric
@attribute exercise_induced_angina { no, yes}
@attribute class { present, not_present}

@data
63,male,typ_angina,233,no,not_present
67,male,asympt,286,yes,present
67,male,asympt,229,yes,present
38,female,non_anginal,?,no,not_present
...
   OxenTI Solutions
Interface




OxenTI Solutions
Interface




OxenTI Solutions
Explorer
              Pré Processamento
Importação dos dados em vários formatos: ARFF,
CSV, C4.5, binary
Dados também podem ser lidos de uma URL ou
de um banco de dados (utilizando o pacote JDBC)
Rotinas de pré-processamento no Weka são
chamados de filtros
Weka tem filtros para:
   Discretização, normalização, amostragem,
   seleção de atributos, transformação e
   combinação de atributos, entre outros.


OxenTI Solutions
Explorer
                   Classificadores
Modelos para a previsão de classes
(nominal ou númerica):
Weka implementa:
   Árvore de decisão, listas, classificadores
   baseado em instâncias, multi-layer
   perceptrons, regressão, redes bayesianas, ...
“Meta”-classificadores:
   Bagging, boosting, stacking, error-correcting
   output code, locally weighted learning, ...




OxenTI Solutions
Explorer
                   Clustering

 Metódos para variáveis numéricas e
 nominais:
    EM
    k-Means
    CobWeb




OxenTI Solutions
Explorer
                     Associações
 Identificar dependências estatísticas entre
 grupos de atributos
 3 algorítimos para aprender associações:
    Apriority;
    PredictiveApriori;
    Tertius;
    Trabalha somente com dados nominais;
    Computa regras que dêem um suporte
    mínimo e ultrapasse um nível de confiança.



OxenTI Solutions
Explorer
              Seleção de Atributos

Usado para investigar quais atributos
(subconjuntos deles) são mais preditivos
AttributeSelection em 2 etapas:
      Um método de busca
      Um método de avaliação
Flexibilidade: (quase) qualquer combinação
de busca/avaliação




OxenTI Solutions
Explorer
                   Visualização

 Ajuda a identificar a dificuldade na
 aprendizagem do problema
 Visualização 2D
 Difere as classes por cor




OxenTI Solutions
Contato
adewale@oxenti.com.br
mauricio@oxenti.com.br
  www.oxenti.com.br

Contenu connexe

Tendances

UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
Vinícius Amaral
 

Tendances (20)

Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )BI - Uso e Benefícios ( Business Intelligence )
BI - Uso e Benefícios ( Business Intelligence )
 
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
Curso Gratuito Online Desmistificando BI (Business Intelligence) Open Source ...
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BI
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Aula11-12 TESI UFS - Explroracao e Gestao de SI nas Empresas Digitais
Aula11-12 TESI UFS - Explroracao e Gestao de SI nas Empresas DigitaisAula11-12 TESI UFS - Explroracao e Gestao de SI nas Empresas Digitais
Aula11-12 TESI UFS - Explroracao e Gestao de SI nas Empresas Digitais
 
Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
 
Business Intelligence e Mídias Sociais
Business Intelligence e Mídias SociaisBusiness Intelligence e Mídias Sociais
Business Intelligence e Mídias Sociais
 
As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014As 10 maiores tendências em business intelligence para 2014
As 10 maiores tendências em business intelligence para 2014
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
OLAP
OLAPOLAP
OLAP
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 

Similaire à Mineração Livre de Dados

Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
Felipeyeger
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
Felipeyeger
 
Inteligência Analítica
Inteligência AnalíticaInteligência Analítica
Inteligência Analítica
Cesar Patiño
 

Similaire à Mineração Livre de Dados (20)

Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Palestra do BI ao Big Data
Palestra do BI ao Big DataPalestra do BI ao Big Data
Palestra do BI ao Big Data
 
Sistemas
SistemasSistemas
Sistemas
 
Sistemas
SistemasSistemas
Sistemas
 
Dutra (2)
Dutra (2)Dutra (2)
Dutra (2)
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Trabalho Business Intelligence
Trabalho Business IntelligenceTrabalho Business Intelligence
Trabalho Business Intelligence
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
 
Inteligência de negócios
Inteligência de negóciosInteligência de negócios
Inteligência de negócios
 
Mic bh - data mining
Mic bh - data miningMic bh - data mining
Mic bh - data mining
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 
Tecnologia para o processo de tomada de decisão
Tecnologia para o processo de tomada de decisãoTecnologia para o processo de tomada de decisão
Tecnologia para o processo de tomada de decisão
 
SAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a DecisoesSAD - Sistemas de Apoio a Decisoes
SAD - Sistemas de Apoio a Decisoes
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado Financeiro
 
Inteligência Analítica
Inteligência AnalíticaInteligência Analítica
Inteligência Analítica
 

Plus de Mauricio Cesar Santos da Purificação

Plus de Mauricio Cesar Santos da Purificação (20)

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
R para Iniciantes
R para IniciantesR para Iniciantes
R para Iniciantes
 
Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
 
Pitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus PartyPitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus Party
 
Pitch BestPoint - Campus Party
Pitch BestPoint - Campus PartyPitch BestPoint - Campus Party
Pitch BestPoint - Campus Party
 
Flyer BestPoint
Flyer BestPointFlyer BestPoint
Flyer BestPoint
 
Pitch BestPoint
Pitch BestPointPitch BestPoint
Pitch BestPoint
 
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TIOxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
 
Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015
 
BestPoint
BestPointBestPoint
BestPoint
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…
 
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
 
Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?
 
Derivação de Modelos ER
Derivação de Modelos ERDerivação de Modelos ER
Derivação de Modelos ER
 
Inteligência de Negócios e Software Livre
Inteligência de Negócios e Software LivreInteligência de Negócios e Software Livre
Inteligência de Negócios e Software Livre
 
Business Intelligence & Business Analytics
Business Intelligence & Business AnalyticsBusiness Intelligence & Business Analytics
Business Intelligence & Business Analytics
 
Aula - Aspectos Avançados em Modelagem Multidimensional
Aula - Aspectos Avançados em Modelagem MultidimensionalAula - Aspectos Avançados em Modelagem Multidimensional
Aula - Aspectos Avançados em Modelagem Multidimensional
 

Mineração Livre de Dados

  • 2. Agenda Apresentação Contexto e Motivação KDD & Data Warehousing Data Mining Tarefas de Data Mining Técnicas de Data Mining Weka OxenTI Solutions
  • 4. Mauricio C. Purificação Bacharel em Ciência da Computação pela UFBA e Aluno do MBA em Administração/Gestão de Negócios na UNIFACS; Sócio Fundador e Diretor Administrativo Financeiro da OxenTI; Analista de Business Intelligence da Santa Casa de Misericórdia da Bahia; Colaborador do CEManTIKA – Grupo de Pesquisa em Sistemas Sensíveis ao Contexto LES-DCC-UFBA; Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Cloud Computing, Métodos Ágeis, Bancos de Dados Evolutivos. http://lattes.cnpq.br/3312807554334758
  • 5. Adewale A. D’Alcântara Bacharelando em Ciência da Computação pela Universidade Federal da Bahia; Sócio Fundador e Diretor Executivo da OxenTI; Especialista no Desenvolvimento de Soluções em CakePHP; Principais Interesses de Pesquisa: Business Intelligence, Business Analytics, Data Warehousing e Data Mining. http://lattes.cnpq.br/5322217410560893
  • 6. A OxenTI Somos uma empresa de Tecnologia da Informação especializada no desenvolvimento de Soluções e Sistemas para apoiar a Gestão eficaz dos ambientes de negócios. OxenTI Solutions
  • 7. Serviços Implantação Sistemas Integrados de Gestão ERP, CRM OxenTI Solutions
  • 8. Serviços Desenvolvimento Soluções para Suporte a Decisão BI, BA, Data Mining OxenTI Solutions
  • 10. Ponto de Vista Comercial Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc... Dados de comércio eletrônico Dados de navegação na internet Dados de compras de clientes em grandes lojas de departamentos, supermercados Dados de transações bancárias, ou de cartão de crédito Computadores mais baratos e mais potentes Pressão da competição OxenTI Solutions
  • 11. Ponto de Vista Científico Dados coletados e armazenados a velocidades enormes (GB/hora) Sensores remotos em satélites Telescópios Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados Técnicas tradicionais não apropriadas para analisar tais dados Ruídos e grande dimensionalidade OxenTI Solutions
  • 12. “Leis”, Gigantes e Monstros Lei de Moore: Capacidade de processamento dobra a cada 18 meses (CPU, memória, cache) Capacidade de armazenamento dobra a cada 10 meses O que estas duas “leis” combinadas produzem? Um gap crescente entre nossa habilidade de gerar dados e nossa habilidade de fazer uso dele OxenTI Solutions
  • 14. Conceito & Processo “O processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados.”
  • 15. KDD & Data Warehousing
  • 17. Conceito Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99] Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01] OxenTI Solutions
  • 18. Áreas de Aplicações Potenciais Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais” Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde OxenTI Solutions
  • 19. Data Mining & KDD KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento” Incorpora tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados OxenTI Solutions
  • 20. Cases
  • 21. Exemplo (1) Fraldas e Cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos compravam fraldas e/ou cervejas às sextas- feiras à tarde no caminho do trabalho para casa Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas Resultado: o consumo cresceu 30% OxenTI Solutions
  • 22. Exemplo (2) Lojas Brasileiras Aplicou 1 milhão de dólares em técnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente é 220v OxenTI Solutions
  • 23. Exemplo (3) Bank Of America Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. OxenTI Solutions
  • 24. Tarefas de Data Mining
  • 25. Análise de Regras de Associação Exemplo: “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais OxenTI Solutions
  • 26. Análise de Padrões Sequenciais Exemplo: A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo OxenTI Solutions
  • 27. Classificação e Predição Exemplo: Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores OxenTI Solutions
  • 28. Classificação e Predição Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos Neste caso, a tarefa de mineração é denominada Predição OxenTI Solutions
  • 29. Análise de Clusters Exemplo: Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira OxenTI Solutions
  • 30. Análise de Outliers Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções) Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente OxenTI Solutions
  • 32. Árvore de Decisão Técnica que constrói um classificador utilizando uma estrutura de árvore onde os nós folhas representam as classes e os nós internos representam um teste sobre um atributo OxenTI Solutions
  • 33. Redes Neurais Modelos matemáticos que permite aprendizado e generalização Esse aprendizado está associado a capacidade de adaptar seus parâmetros como consequência da sua iteração com o meio externo Estrutura similar as redes neurais biológicas OxenTI Solutions
  • 36. Weka Software para data mining/machine learning escrito em Java (distribuído sob GNU Public License) Utilizado em pesquisa e educação Principais características: Extenso conjunto de rotinas para pré- processamento, esquemas de aprendizagem, além de métodos de avaliação GUIs (inclusive para visualização dos dados) Ambiente para comparação de algortimos de aprendizagem. OxenTI Solutions
  • 37. Formato de Entrada @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ... OxenTI Solutions
  • 40. Explorer Pré Processamento Importação dos dados em vários formatos: ARFF, CSV, C4.5, binary Dados também podem ser lidos de uma URL ou de um banco de dados (utilizando o pacote JDBC) Rotinas de pré-processamento no Weka são chamados de filtros Weka tem filtros para: Discretização, normalização, amostragem, seleção de atributos, transformação e combinação de atributos, entre outros. OxenTI Solutions
  • 41. Explorer Classificadores Modelos para a previsão de classes (nominal ou númerica): Weka implementa: Árvore de decisão, listas, classificadores baseado em instâncias, multi-layer perceptrons, regressão, redes bayesianas, ... “Meta”-classificadores: Bagging, boosting, stacking, error-correcting output code, locally weighted learning, ... OxenTI Solutions
  • 42. Explorer Clustering Metódos para variáveis numéricas e nominais: EM k-Means CobWeb OxenTI Solutions
  • 43. Explorer Associações Identificar dependências estatísticas entre grupos de atributos 3 algorítimos para aprender associações: Apriority; PredictiveApriori; Tertius; Trabalha somente com dados nominais; Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança. OxenTI Solutions
  • 44. Explorer Seleção de Atributos Usado para investigar quais atributos (subconjuntos deles) são mais preditivos AttributeSelection em 2 etapas: Um método de busca Um método de avaliação Flexibilidade: (quase) qualquer combinação de busca/avaliação OxenTI Solutions
  • 45. Explorer Visualização Ajuda a identificar a dificuldade na aprendizagem do problema Visualização 2D Difere as classes por cor OxenTI Solutions