SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
Mineração de dados e novas oportunidades
de análise para sistemas de informação




        Prof. Dalton Martins
       dmartins@gmail.com
        FATEC – São Paulo            14º Congresso de Tecnologia da Fatec São Paulo
Depto. de Tecnologia da Informação                     17/10/2012
O que é mineração de dados?
●
    É uma tecnologia que combina métodos
    tradicionais de análise de dados com
    algoritmos sofisticados para processar
    grandes volumes de dados;
●
    É também um processo de descoberta de
    informações úteis em grandes depósitos de
    dados;
●
    Também fornece capacidade de          previsão do
    resultado em uma observação futura.
Mineração e descoberta do
                  conhecimento


Entrada     Pré-processamento       Mineração     Pós-processamento        Informações
de dados         de dados           de dados           de dados


      Seleção de recursos
      Redução de dimensionalidade               Padrões de filtragem
      Normalização                              Visualização
      Criação de subconjuntos de dados          Interpretação de padrões
Desafios motivadores
●   Escalabilidade: devido aos avanços na geração e
    coleta, conjuntos de dados com tamanhos em giga, tera e
    mesmo petabytes estão se tornando comuns;
●   Alta dimensionalidade: é comum encontrarmos
    conjuntos de dados com centenas ou milhares de atributos
    ao invés do punhado comum de uma década atrás;
●   Dados complexos e heterogêneos:                 diversificação
    de tipos de atributos e relacionamento entre eles;
●   Propriedade e distribuição dos dados: os dados
    utilizados para análise nem sempre estão mais num mesmo
    local e pertencem a múltiplas instâncias organizacionais;
●   Análises não tradicionais: novas técnicas para
    validação de hipóteses têm surgido atualmente.
4 principais tarefas da Mineração
●   Modelagem de previsão: se refere à tarefa de
    construir um modelo para a variável alvo como uma
    função das variáveis explicativas.
    –   Há dois tipos de tarefas de modelagem de previsão:
        ●   Classificação: usada para variáveis discretas;
        ●   Regressão: usada para variáveis contínuas.
●   Análise de associação: é usada para descobrir
    padrões que descrevam características altamente
    associadas dentro dos dados.
    –   Os padrões descobertos são normalmente representados na
        forma de regras de implicação ou subconjuntos de
        características.
4 principais tarefas da Mineração
●   Análise de grupo: procura encontrar
    grupos de observações intimamente
    relacionadas de modo que observações que
    pertençam ao mesmo grupo sejam mais
    semelhantes entre si do que com as que
    pertençam a outros grupos;
●   Detecção de anomalias: é a tarefa de
    identificar observações cujas características
    sejam significativamente diferentes do resto
    dos dados. Tais observações são conhecidas
    como anomalias ou fatores estranhos.
Conhecimentos de base do
             minerador de dados
●   Banco de dados: SQL e a estruturação de dados de sua análise em
    bancos facilitam a tarefa e o esforço envolvido na mineração
●   Linguagem de scripts: nem sempre conseguimos os dados no
    formato que precisamos. Muitas vezes, é preciso mexer e transformar
    as relações com dados. Linguagens como Python, Perl e PHP podem
    ajudar muito.
●   Planilhas: kit básico do minerador. Facilitam gerar gráficos
    facilmente e calcular dados de base para avaliação do trabalho;
●   Estatística: conhecimento fundamental para análise exploratória e
    testes de validação de hipóteses;
●   Softwares de análise: há muitos softwares hoje em dia que podem
    ajudar no trabalho, facilitando muitos processos de forma automática.
    Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....
Alguns exemplos de aplicação
●   Veremos dois exemplos de aplicação de
    algumas técnicas de mineração
    –   Análise de visitações e uso de um site na Internet;
    –   Análise de padrões de comunicação entre
        educandos num curso de ensino à distância.
Exemplo 1 – site
  da tabela ao mapa
                                   Média de        Média de
       Estados Cidades Visitas   páginas/visitas tempo/visita
         AC       2       143         1,29           124,62
         AL      10      6370         1,47           157,44
         AM       6      2466         0,65           128,16
         AP       2       349         2,11           250,16
         BA      34      19046       88,64           1948,3
         CE       9      18486        2,46          4632,77
         DF       2      13637        4,04           292,14
         ES      14      7072         1,99           149,85
         GO      12      6709         1,39            66,1
         MA       6      4813           2            140,29
         MG      54      35851       140,38         2896,88
         MS       7      1008        304,82          210,5
         MT       8      4366         2,2            145,97
         PA      19      4959         1,13           262,06
         PB       9      7331         1,31           220,72
         PE       4      9313         1,78           230,99
         PI       4      5732         2,12           155,19
         PR      18      12839        2,7            243,79
         RJ      30      27724       53,97           125,57
         RN      14      20066        2,79           187,49
         RO       4      2360         2,98           175,3
         RS      46      22173       154,41          17959
         SC      37      13816        2,03           172,01
         SE       2      2162         2,27           132,24
         SP      115     73544       40,01          3961,85
         TO       5       758         3,08           155,2
Exemplo 1 – site - conversações
Exemplo 1 – site
       identificando padrões                   Grau médio
                                                   das    Distância
Estados   Nós Relações   Densidade Centralidade relações geodésica
  AC       1      0           0         0            0        0
  AL       4      0           0         0            0        0
  AM       8      1         0,02       0,07        0,25     1,00
  AP       1      0         0,00       0,00        0,00     0,00
  BA       16     0         0,00       0,00        0,00     0,00
  CE       37    98         0,07       0,25        5,30     3,00
  DF       26    22         0,03       0,15        1,69     3,00
  ES       13     0         0,00       0,00        0,00     0,00
  GO       3      0         0,00       0,00        0,00     0,00
  MA       6      0         0,00       0,00        0,00     0,00
  MG       31    21         0,02       0,16        1,35     3,00
  MS       18    10         0,03       0,14        1,11     2,00
  MT       9      4         0,06       0,19        0,89     1,00
  PA       7      0         0,00       0,00        0,00     0,00
  PB       3      1         0,17       0,25        0,67     1,00
  PE       6      0         0,00       0,00        0,00     0,00
  PI       44    49         0,03       0,17        2,23     3,00
  PR       30     3         0,00       0,05        0,20     2,00
  RJ       22     1         0,00       0,02        0,09     1,00
  RN       58     5         0,00       0,03        0,17     2,00
  RS      138   368         0,02       0,18        5,33     6,00
  SC       33     9         0,01       0,09        0,55     3,00
  SP      138    84         0,00       0,10        1,22     5,00
  RR       3      0         0,00       0,00        0,00     0,00
Exemplo 1 – site - RS
Exemplo 1 – site - SP
Exemplo 2 – EAD – padrões de
        comunicação
Exemplo 2 – entendendo a rede




       Nós com mais de 10 conexões.
Exemplo 2 – entendendo a rede




       Nós com mais de 15 conexões.
Exemplo 2 – entendendo a rede




       Nós com mais de 20 conexões.
Referências
●   TAN, Pang-Ning, STEINBACH, Michel,
    KUMAR, Vipin. Introdução ao Data Mining:
    mineração de dados. Editora Ciência
    Moderna. 2009. 900p.
Obrigado!




             Contato:
       dmartins@gmail.com
http://daltonmartins.blogspot.com

Contenu connexe

En vedette

En vedette (20)

O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
De dev para data scientist 3 coisas que aprendi
De dev para data scientist  3 coisas que aprendiDe dev para data scientist  3 coisas que aprendi
De dev para data scientist 3 coisas que aprendi
 
Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na web
 
Cases big data
Cases big dataCases big data
Cases big data
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab ms
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com Python
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crm
 
Análise de Problemas Big Data
Análise de Problemas Big DataAnálise de Problemas Big Data
Análise de Problemas Big Data
 
Desenvolvendo mvp com python
Desenvolvendo mvp com pythonDesenvolvendo mvp com python
Desenvolvendo mvp com python
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Relatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta WekaRelatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta Weka
 
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
[TDC2016]  Apache Cassandra Estratégias de Modelagem de Dados[TDC2016]  Apache Cassandra Estratégias de Modelagem de Dados
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de Dados
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 

Similaire à Mineração de dados e novas oportunidades de análise para sistemas de informação

121023 01-wbeef-engorda-a-pasto-andré-bartocci
121023 01-wbeef-engorda-a-pasto-andré-bartocci121023 01-wbeef-engorda-a-pasto-andré-bartocci
121023 01-wbeef-engorda-a-pasto-andré-bartocci
AgroTalento
 
COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...
COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...
COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...
Mário Januário Filho
 
Resultado de votação dos partidos
Resultado de votação dos partidosResultado de votação dos partidos
Resultado de votação dos partidos
CartorioEleitoral
 
Resultado de votação dos partidos 1
Resultado de votação dos partidos 1Resultado de votação dos partidos 1
Resultado de votação dos partidos 1
CartorioEleitoral
 
120328 03-wbeef-gerenciamento-rodrigo-spengler
120328 03-wbeef-gerenciamento-rodrigo-spengler120328 03-wbeef-gerenciamento-rodrigo-spengler
120328 03-wbeef-gerenciamento-rodrigo-spengler
AgroTalento
 
Interpretacao analise-solo-modelo-massa
Interpretacao analise-solo-modelo-massaInterpretacao analise-solo-modelo-massa
Interpretacao analise-solo-modelo-massa
Exagro
 

Similaire à Mineração de dados e novas oportunidades de análise para sistemas de informação (19)

CONNEPI - Estudo do Controle analítico em avaliação de contaminantes inorgâni...
CONNEPI - Estudo do Controle analítico em avaliação de contaminantes inorgâni...CONNEPI - Estudo do Controle analítico em avaliação de contaminantes inorgâni...
CONNEPI - Estudo do Controle analítico em avaliação de contaminantes inorgâni...
 
121023 01-wbeef-engorda-a-pasto-andré-bartocci
121023 01-wbeef-engorda-a-pasto-andré-bartocci121023 01-wbeef-engorda-a-pasto-andré-bartocci
121023 01-wbeef-engorda-a-pasto-andré-bartocci
 
Metodologia de Escolha - Setor Telecomunicações e Transporte 2016
Metodologia de Escolha - Setor Telecomunicações e Transporte 2016Metodologia de Escolha - Setor Telecomunicações e Transporte 2016
Metodologia de Escolha - Setor Telecomunicações e Transporte 2016
 
A PUBLICIDADE MOSTRA SUA CARA: UM PERFIL DA PESQUISA NO GP DE PUBLICIDADE E P...
A PUBLICIDADE MOSTRA SUA CARA: UM PERFIL DA PESQUISA NO GP DE PUBLICIDADE E P...A PUBLICIDADE MOSTRA SUA CARA: UM PERFIL DA PESQUISA NO GP DE PUBLICIDADE E P...
A PUBLICIDADE MOSTRA SUA CARA: UM PERFIL DA PESQUISA NO GP DE PUBLICIDADE E P...
 
COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...
COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...
COMPOSIÇÃO DE UMA CARTEIRA DE AÇÕES COM RISCO MÍNIMO E RETORNO ESPECIFICADO: ...
 
Resultado de votação dos partidos
Resultado de votação dos partidosResultado de votação dos partidos
Resultado de votação dos partidos
 
Resultado de votação dos partidos 1
Resultado de votação dos partidos 1Resultado de votação dos partidos 1
Resultado de votação dos partidos 1
 
Tabela de vazão potencia Aplicação defencivos
Tabela  de vazão  potencia Aplicação defencivosTabela  de vazão  potencia Aplicação defencivos
Tabela de vazão potencia Aplicação defencivos
 
Tabelas de conversão
Tabelas de conversãoTabelas de conversão
Tabelas de conversão
 
Rateio do FPE: análise e simulações
Rateio do FPE: análise e simulaçõesRateio do FPE: análise e simulações
Rateio do FPE: análise e simulações
 
Apresentação Instituto i3G
Apresentação Instituto i3GApresentação Instituto i3G
Apresentação Instituto i3G
 
Solos e Adubação da Cana-de-açúcar
Solos e Adubação da Cana-de-açúcarSolos e Adubação da Cana-de-açúcar
Solos e Adubação da Cana-de-açúcar
 
Pl i dryas_20130118
Pl i dryas_20130118Pl i dryas_20130118
Pl i dryas_20130118
 
Pl_iDryas (2013-01-18)
Pl_iDryas (2013-01-18)Pl_iDryas (2013-01-18)
Pl_iDryas (2013-01-18)
 
IV WSF, Vilhena - Ricardo Hilman - AS BARREIRAS FITOSSANITÁRIAS INTERESTADUAI...
IV WSF, Vilhena - Ricardo Hilman - AS BARREIRAS FITOSSANITÁRIAS INTERESTADUAI...IV WSF, Vilhena - Ricardo Hilman - AS BARREIRAS FITOSSANITÁRIAS INTERESTADUAI...
IV WSF, Vilhena - Ricardo Hilman - AS BARREIRAS FITOSSANITÁRIAS INTERESTADUAI...
 
120328 03-wbeef-gerenciamento-rodrigo-spengler
120328 03-wbeef-gerenciamento-rodrigo-spengler120328 03-wbeef-gerenciamento-rodrigo-spengler
120328 03-wbeef-gerenciamento-rodrigo-spengler
 
PNBL: proposta das 100 cidades
PNBL: proposta das 100 cidadesPNBL: proposta das 100 cidades
PNBL: proposta das 100 cidades
 
Banca Examinadora 2 __2015 Armazenagem e distribuição
Banca Examinadora 2 __2015 Armazenagem e distribuiçãoBanca Examinadora 2 __2015 Armazenagem e distribuição
Banca Examinadora 2 __2015 Armazenagem e distribuição
 
Interpretacao analise-solo-modelo-massa
Interpretacao analise-solo-modelo-massaInterpretacao analise-solo-modelo-massa
Interpretacao analise-solo-modelo-massa
 

Plus de Dalton Martins

Plus de Dalton Martins (20)

Computação cognitiva e políticas culturais
Computação cognitiva e políticas culturaisComputação cognitiva e políticas culturais
Computação cognitiva e políticas culturais
 
Humanidades digitais e ciência de dados: novos métodos, perspectivas e desaf...
Humanidades digitais e ciência de dados: novos métodos, perspectivas e desaf...Humanidades digitais e ciência de dados: novos métodos, perspectivas e desaf...
Humanidades digitais e ciência de dados: novos métodos, perspectivas e desaf...
 
Cultura digital, museus e acervos em rede
Cultura digital, museus e acervos em redeCultura digital, museus e acervos em rede
Cultura digital, museus e acervos em rede
 
Digitalização da cultura brasileira - as motivações do projeto Tainacan
Digitalização da cultura brasileira - as motivações do projeto TainacanDigitalização da cultura brasileira - as motivações do projeto Tainacan
Digitalização da cultura brasileira - as motivações do projeto Tainacan
 
Processos colaborativos de produção de ontologias - I Fórum Nacional de Sist...
Processos colaborativos de produção de ontologias  - I Fórum Nacional de Sist...Processos colaborativos de produção de ontologias  - I Fórum Nacional de Sist...
Processos colaborativos de produção de ontologias - I Fórum Nacional de Sist...
 
Do documento às ontologias: uma visão sobre sistemas de organização do conhec...
Do documento às ontologias: uma visão sobre sistemas de organização do conhec...Do documento às ontologias: uma visão sobre sistemas de organização do conhec...
Do documento às ontologias: uma visão sobre sistemas de organização do conhec...
 
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
 
Criança, mídia e consumo na formação de professores
Criança, mídia e consumo na formação de professoresCriança, mídia e consumo na formação de professores
Criança, mídia e consumo na formação de professores
 
Jornalismo de Dados - Fontes de Informação para produção de Mapas Informacion...
Jornalismo de Dados - Fontes de Informação para produção de Mapas Informacion...Jornalismo de Dados - Fontes de Informação para produção de Mapas Informacion...
Jornalismo de Dados - Fontes de Informação para produção de Mapas Informacion...
 
In search of a model of human dynamics analysis applied to social sciences
In search of a model of human dynamics analysis applied to social sciencesIn search of a model of human dynamics analysis applied to social sciences
In search of a model of human dynamics analysis applied to social sciences
 
Novos caminhos da inclusão digital: experiências do projeto +Telecentros
Novos caminhos da inclusão digital: experiências do projeto +TelecentrosNovos caminhos da inclusão digital: experiências do projeto +Telecentros
Novos caminhos da inclusão digital: experiências do projeto +Telecentros
 
Aula 01 introdução e conceitos básicos sobre gestão
Aula 01   introdução e conceitos básicos sobre gestãoAula 01   introdução e conceitos básicos sobre gestão
Aula 01 introdução e conceitos básicos sobre gestão
 
Apresentação Semana de Humanização da Saúde: uma visão quantitativa
Apresentação Semana de Humanização da Saúde: uma visão quantitativaApresentação Semana de Humanização da Saúde: uma visão quantitativa
Apresentação Semana de Humanização da Saúde: uma visão quantitativa
 
Design da Informação - Aula 04 - Imagens que informam - design, legendas e di...
Design da Informação - Aula 04 - Imagens que informam - design, legendas e di...Design da Informação - Aula 04 - Imagens que informam - design, legendas e di...
Design da Informação - Aula 04 - Imagens que informam - design, legendas e di...
 
Design da Informação - Aula 03 - Princípios do design de informação
Design da Informação - Aula 03 - Princípios do design de informaçãoDesign da Informação - Aula 03 - Princípios do design de informação
Design da Informação - Aula 03 - Princípios do design de informação
 
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativaAula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
 
Aula 02 - Design da Informação - História e princípios do design de informação
Aula 02 - Design da Informação - História e princípios do design de informaçãoAula 02 - Design da Informação - História e princípios do design de informação
Aula 02 - Design da Informação - História e princípios do design de informação
 
Aula 03 - Identificando e tratando padrões
Aula 03 - Identificando e tratando padrõesAula 03 - Identificando e tratando padrões
Aula 03 - Identificando e tratando padrões
 
Aula 02 - Estatística da vida cotidiana
Aula 02 - Estatística da vida cotidianaAula 02 - Estatística da vida cotidiana
Aula 02 - Estatística da vida cotidiana
 
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
Tópicos em Gestão da Informação II - Aula 01 - Desafios atuais da Gestão da I...
 

Dernier

O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
azulassessoria9
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
sh5kpmr7w7
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptx
TailsonSantos1
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
PatriciaCaetano18
 
Expansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XVExpansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XV
lenapinto
 
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
azulassessoria9
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
rfmbrandao
 
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
azulassessoria9
 

Dernier (20)

O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
O estudo do controle motor nada mais é do que o estudo da natureza do movimen...
 
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
Apresentação | Dia da Europa 2024 - Celebremos a União Europeia!
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptx
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.
 
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdfMESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
MESTRES DA CULTURA DE ASSARÉ Prof. Francisco Leite.pdf
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
Falando de Física Quântica apresentação introd
Falando de Física Quântica apresentação introdFalando de Física Quântica apresentação introd
Falando de Física Quântica apresentação introd
 
Expansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XVExpansão Marítima- Descobrimentos Portugueses século XV
Expansão Marítima- Descobrimentos Portugueses século XV
 
Cartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptxCartão de crédito e fatura do cartão.pptx
Cartão de crédito e fatura do cartão.pptx
 
aprendizagem significatica, teórico David Ausubel
aprendizagem significatica, teórico David Ausubelaprendizagem significatica, teórico David Ausubel
aprendizagem significatica, teórico David Ausubel
 
Apresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União EuropeiaApresentação | Símbolos e Valores da União Europeia
Apresentação | Símbolos e Valores da União Europeia
 
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 2 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
 
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
Tema de redação - As dificuldades para barrar o casamento infantil no Brasil ...
 
Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024Historia de Portugal - Quarto Ano - 2024
Historia de Portugal - Quarto Ano - 2024
 
Sistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturasSistema articular aula 4 (1).pdf articulações e junturas
Sistema articular aula 4 (1).pdf articulações e junturas
 
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
Aula 25 - A america espanhola - colonização, exploraçãp e trabalho (mita e en...
 
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
ATIVIDADE 3 - DESENVOLVIMENTO E APRENDIZAGEM MOTORA - 52_2024
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmico
 

Mineração de dados e novas oportunidades de análise para sistemas de informação

  • 1. Mineração de dados e novas oportunidades de análise para sistemas de informação Prof. Dalton Martins dmartins@gmail.com FATEC – São Paulo 14º Congresso de Tecnologia da Fatec São Paulo Depto. de Tecnologia da Informação 17/10/2012
  • 2. O que é mineração de dados? ● É uma tecnologia que combina métodos tradicionais de análise de dados com algoritmos sofisticados para processar grandes volumes de dados; ● É também um processo de descoberta de informações úteis em grandes depósitos de dados; ● Também fornece capacidade de previsão do resultado em uma observação futura.
  • 3. Mineração e descoberta do conhecimento Entrada Pré-processamento Mineração Pós-processamento Informações de dados de dados de dados de dados Seleção de recursos Redução de dimensionalidade Padrões de filtragem Normalização Visualização Criação de subconjuntos de dados Interpretação de padrões
  • 4. Desafios motivadores ● Escalabilidade: devido aos avanços na geração e coleta, conjuntos de dados com tamanhos em giga, tera e mesmo petabytes estão se tornando comuns; ● Alta dimensionalidade: é comum encontrarmos conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de uma década atrás; ● Dados complexos e heterogêneos: diversificação de tipos de atributos e relacionamento entre eles; ● Propriedade e distribuição dos dados: os dados utilizados para análise nem sempre estão mais num mesmo local e pertencem a múltiplas instâncias organizacionais; ● Análises não tradicionais: novas técnicas para validação de hipóteses têm surgido atualmente.
  • 5. 4 principais tarefas da Mineração ● Modelagem de previsão: se refere à tarefa de construir um modelo para a variável alvo como uma função das variáveis explicativas. – Há dois tipos de tarefas de modelagem de previsão: ● Classificação: usada para variáveis discretas; ● Regressão: usada para variáveis contínuas. ● Análise de associação: é usada para descobrir padrões que descrevam características altamente associadas dentro dos dados. – Os padrões descobertos são normalmente representados na forma de regras de implicação ou subconjuntos de características.
  • 6. 4 principais tarefas da Mineração ● Análise de grupo: procura encontrar grupos de observações intimamente relacionadas de modo que observações que pertençam ao mesmo grupo sejam mais semelhantes entre si do que com as que pertençam a outros grupos; ● Detecção de anomalias: é a tarefa de identificar observações cujas características sejam significativamente diferentes do resto dos dados. Tais observações são conhecidas como anomalias ou fatores estranhos.
  • 7. Conhecimentos de base do minerador de dados ● Banco de dados: SQL e a estruturação de dados de sua análise em bancos facilitam a tarefa e o esforço envolvido na mineração ● Linguagem de scripts: nem sempre conseguimos os dados no formato que precisamos. Muitas vezes, é preciso mexer e transformar as relações com dados. Linguagens como Python, Perl e PHP podem ajudar muito. ● Planilhas: kit básico do minerador. Facilitam gerar gráficos facilmente e calcular dados de base para avaliação do trabalho; ● Estatística: conhecimento fundamental para análise exploratória e testes de validação de hipóteses; ● Softwares de análise: há muitos softwares hoje em dia que podem ajudar no trabalho, facilitando muitos processos de forma automática. Ex: Gephi, Pajek, R, SPSS, Visone, SciLab, etc....
  • 8. Alguns exemplos de aplicação ● Veremos dois exemplos de aplicação de algumas técnicas de mineração – Análise de visitações e uso de um site na Internet; – Análise de padrões de comunicação entre educandos num curso de ensino à distância.
  • 9. Exemplo 1 – site da tabela ao mapa Média de Média de Estados Cidades Visitas páginas/visitas tempo/visita AC 2 143 1,29 124,62 AL 10 6370 1,47 157,44 AM 6 2466 0,65 128,16 AP 2 349 2,11 250,16 BA 34 19046 88,64 1948,3 CE 9 18486 2,46 4632,77 DF 2 13637 4,04 292,14 ES 14 7072 1,99 149,85 GO 12 6709 1,39 66,1 MA 6 4813 2 140,29 MG 54 35851 140,38 2896,88 MS 7 1008 304,82 210,5 MT 8 4366 2,2 145,97 PA 19 4959 1,13 262,06 PB 9 7331 1,31 220,72 PE 4 9313 1,78 230,99 PI 4 5732 2,12 155,19 PR 18 12839 2,7 243,79 RJ 30 27724 53,97 125,57 RN 14 20066 2,79 187,49 RO 4 2360 2,98 175,3 RS 46 22173 154,41 17959 SC 37 13816 2,03 172,01 SE 2 2162 2,27 132,24 SP 115 73544 40,01 3961,85 TO 5 758 3,08 155,2
  • 10. Exemplo 1 – site - conversações
  • 11. Exemplo 1 – site identificando padrões Grau médio das Distância Estados Nós Relações Densidade Centralidade relações geodésica AC 1 0 0 0 0 0 AL 4 0 0 0 0 0 AM 8 1 0,02 0,07 0,25 1,00 AP 1 0 0,00 0,00 0,00 0,00 BA 16 0 0,00 0,00 0,00 0,00 CE 37 98 0,07 0,25 5,30 3,00 DF 26 22 0,03 0,15 1,69 3,00 ES 13 0 0,00 0,00 0,00 0,00 GO 3 0 0,00 0,00 0,00 0,00 MA 6 0 0,00 0,00 0,00 0,00 MG 31 21 0,02 0,16 1,35 3,00 MS 18 10 0,03 0,14 1,11 2,00 MT 9 4 0,06 0,19 0,89 1,00 PA 7 0 0,00 0,00 0,00 0,00 PB 3 1 0,17 0,25 0,67 1,00 PE 6 0 0,00 0,00 0,00 0,00 PI 44 49 0,03 0,17 2,23 3,00 PR 30 3 0,00 0,05 0,20 2,00 RJ 22 1 0,00 0,02 0,09 1,00 RN 58 5 0,00 0,03 0,17 2,00 RS 138 368 0,02 0,18 5,33 6,00 SC 33 9 0,01 0,09 0,55 3,00 SP 138 84 0,00 0,10 1,22 5,00 RR 3 0 0,00 0,00 0,00 0,00
  • 12. Exemplo 1 – site - RS
  • 13. Exemplo 1 – site - SP
  • 14. Exemplo 2 – EAD – padrões de comunicação
  • 15. Exemplo 2 – entendendo a rede Nós com mais de 10 conexões.
  • 16. Exemplo 2 – entendendo a rede Nós com mais de 15 conexões.
  • 17. Exemplo 2 – entendendo a rede Nós com mais de 20 conexões.
  • 18. Referências ● TAN, Pang-Ning, STEINBACH, Michel, KUMAR, Vipin. Introdução ao Data Mining: mineração de dados. Editora Ciência Moderna. 2009. 900p.
  • 19. Obrigado! Contato: dmartins@gmail.com http://daltonmartins.blogspot.com