SlideShare uma empresa Scribd logo
1 de 80
Baixar para ler offline
CCMC – ICMC – USP
    São Carlos, SP
 5 de Junho de 2009   1
2
   Contexto
   Problema
   Posicionamento incremental
   Regras de associação para identificar tópicos
   Mineração visual para conjuntos dinâmicos
    de documentos
   Contribuições
   Trabalhos futuros

                                                    3
Visualização de domínios
 de conhecimento
Mineração de dados
  Mineração de dados textuais
Mineração visual de dados
                                 4
   Posicionamento por similaridade
     Wise (1999); Börner (2003); Bederson (2001); ...
   Identificação de tópicos em mapas
     Wise(1999);Skupin (2002); Chen (2004) ...




                                                         5
 Necessidade de mapa cognitivo para
  navegar espaços conceituais
  (Chen,2004)
 Visualização de conjuntos dinâmicos
  como problema relevante
 Ao visualizar conjuntos dinâmicos, é
  importante preservar o contexto dos
  usuários (Hetzler, 2005)
                                         6
   Outras soluções
     Refazer toda a visualização
     Reutilizar solução inicial, refazer
     periodicamente Ex. Wong et al (2003)




                                            7
 Construir mapas de conjuntos
  dinâmicos de documentos
 Manter representação adequada
  à medida que elementos são
  acrescentados ou retirados
 Minimizar alterações

                                  8
 Técnica incremental de Multidimentional
      Scaling - MDS
     Utiliza medidas de similaridade entre
      pares C

    6,5       5
                          2       4.75

A         2       B   A       B          C



                                                9
 Técnica incremental de Multidimentional
      Scaling - MDS
     Utiliza medidas de similaridade entre
      pares                5     5

                      A         B           C
        C
    5       5
                          2,5         2,5

A       5       B     A         B           C


                                ABC
                                                10
11
demo: cbr-ilp-ir-son
 Não refaz a visualização a cada
  alteração
 Não mantem solução inicial fixa
 Baixo custo: pior caso: O(N2), caso
  médio: O(N √N)
 Disposição consistente de
  elementos
                                        12
178 documentos                    294 documentos




                 675 documentos
                                                   13
   Visualização de conjuntos dinâmicos de
    documentos
   Outros domínios
     Navegação em sistema operacional
     Tag Clouds
     Dados multidimensionais
     Coleções de imagens (Rodden et al;1999, 2001)
   Não há oclusão

                                                      14
   Análogo ao um tabuleiro de xadrez
   Distância de Chebyschev:



   Relação com o espaço original
    (erro ponderado)+ desempate por qtd ponderada


                                               15
   Avaliação de alternativas:




                                 16
   Elemento aprisionado:




                            17
   Elemento aprisionado:




                            18
   Elemento aprisionado:




                            19
   Movimento em direção ao centro:




                                      20
 Novo elemento adicionado na célula do
  elemento mais similar
 Avaliação de alternativas:
     Modo completo: utilização do conjunto
      completo
     Modo estocástico: Lista de elementos
      próximos e lista de elementos aleatórios
     (Chalmers, 1996)

                                                 21
   CBR-ILP-IR-SON:




                      22
Conjunto inicial




                   Conjunto intermediário




  Conjunto final
                      O(VxN):O(N)           23
24
 Mineração de textos com regras de
 associação
  Documentos » Transações
  Termos » Itens
Nashville, Tenessee -> Tornadoes
com suporte 5% e
confiança 100%
                                      25
26
 Co-ocorrência de termos ≈ assunto
 Tópico: descrição de um conjunto de
  documentos relacionados,
  representada por uma lista de
  term0s.
 Um tópico cobre um conjunto de
  documentos nos quais os termos co-
  ocorrem.                              27
 Quantidade de regras
  descobertas
 Redundância de regras

 Relevância dos termos (itens)‫‏‬
 Medida de relevância para
 regras (filtragem)‫‏‬
                                   28
Alto suporte   Espaço de regras




                              29
Baixo suporte   Espaço de regras




                               30
1. Sk: conjunto de documentos similares
2. Identificar os termos mais relevantes




31
“Thursday”




         32
“Flu”




        33
3. Conjunto Inicial de item sets: Tr x T
      Termos relevantes x Todos os termos
4. Aplicação do Apriori (qtd termos > 2)
5. Ordenados por peso:




34
6. Item set de maior peso é selecionado
7. Documentos cobertos eliminados de Sk
8. Outros item sets são selecionados se há
   suporte em Sk residual ( repete 6 & 7 )‫‏‬
9 . Se todos os item sets são considerados
   |Sk residual| ≠ , repete todo o processo
   com Sk residual

35
   Múltiplo início
     Agrupamentos no
      mapa – vários
      níveis
     Grade
      ▪ Célula de tamanho
        variável
      ▪ Deslocamento da
        grade


                            36
LWR


      37
   Vantagens
     Resultados em múltiplos níveis.
      ▪ Ex [bird, flu]; [bird,flu,swan];
     Baixa sensibilidade para parâmetros
   Desvantagens
     Resultados não satisfatórios para um pequeno
      número de subconjuntos ou seleções muito
      grandes (aprox. |Sk| > |C|/4)


                                                     38
39
40
41
1.   Construção do mapa
2.   Extração de tópicos
3.   Análise de tópicos centrada no
     usuário
     i. Remoção de tópicos irrelevantes
  ii. Generalização de tópicos
4. Reconstrução do mapa
                                          42
   Estratégia de atualização incremental de
    agrupamentos
     Existem soluções: ex. GenIc (Gupta e Grossman,
      2004)
     Viés adotado: contribuição do posicionamento de
     elementos no mapa
   Estratégia de atualização incremental de
    tópicos
     Heurísticas: não repetir o processo a cada passo

                                                         43
44
?




    45
   Efeito do viés
     Tendência a formar agrupamentos coesos no
      mapa
     Solução não ótima
   Eventual degeneração da solução
     Solução atual: refazer o agrupamento
     Espaço para melhoria



                                                  46
 Perguntas
  quando deve um tópico ser eliminado?
  quando devem ser acrescentados
  novos tópicos?
 Abordagem
  Avaliação dos termos semente

                                          47
1. Extração inicial de tópicos
2. A cada alteração nos agrupamentos, atualiza-se
   a lista de termos semente
3. Se um tópico existente não possue nenhuma
   das atuais sementes, ele é excluído
4. Se um novo termo semente aparece, extrair
   tópicos para aquele termo
5. Novas relações para sementes: controle de
   alterações no suporte do termo. A cada passo, o
   termo de maior variação é reavaliado

                                                     48
   Objetivo: manter o tempo de
    processamento compatível com o
    cenário de uso




                                     49
 Um novo algoritmo para a projeção
  incremental de conjuntos dinâmicos
  de dados multidimensionais
 Uma visualização para conjuntos
  dinâmicos de dados
  multidimensionais que não sofre
  problemas de oclusão
                                       50
   Um algoritmo seletivo de indução de regras
    de associação que explora grupos de
    documentos similares
   Um processo iterativo e interativo de
    mineração visual de textos
   Um espaço incremental que: minimiza
    alterações, mantem uma representação
    consistente e reflete a dinâmica dos dados

                                                 51
 aplicação do algoritmo incremental de
  projeção em cenários específicos de uso e
  validação
 melhoria de pontos específicos do
  algoritmo
     Ex. Identificação de elementos similares
   investigação de novas possibilidades de
    interação e visualização
     Ex. melhoria do refino interativo de
     mapas/tópicos  Dissertação R. Rodrigues
                                                 52
53
   Além da discussão constante com as
    orientadoras, este trabalho contou com
     Contribuições do Prof. Dr. Alneu Lopes
     Contribuições do Prof. Dr. Chaomei Chen
     Desenvolvimento de software e contribuições de
      Renato Rodrigues
     Plataforma PEx (Prof. Dr. Fernando Paulovich)
      para o teste e incorporação de soluções
     Contribuições de colegas na USP e Drexel
                                                       54
   Bolsa CAPES
 Bolsa FAPESP
 Bolsa CAPES PDDE (doutorado
    sanduíche)




                                55
Roberto Pinho
robertopinho@yahoo.com.br   www.ascoisas.com   56
PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F.
  Incremental board: A grid-based space for
  visualizing dynamic data sets. In:
  Proceedings of the 2009 Annual ACM
  Symposium on Applied Computing, New
  York, NY, USA:ACM, 2009, p. 1757–1764.
  (Best Paper Award in the Information System
  Theme - Prêmio de melhor trabalho na área
  Sistemas de Informação).
                                                57
   Photomesa by HCI Lab at the Univ. of Maryland




                                                    58
   Critério de Desempate




                            59
   Iris Data Set




                    60
PINHO, R.; OLIVEIRA, M. C. F.
 HexBoard: Conveying Pairwise
 Similarity in an Incremental
 Visualization Space. In: IV ’09: 13th
 International Conference
 Information Visualisation (em
 publicação), 2009.
                                         61
PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An
  incremental space to visualize dynamic
  data sets. Convidado para submissão para
  edição especial do Multimedia Tools and
  Applications Journal (MTAP) com os
  melhores trabalhos em Multimídia e
  Visualização (MMV track) do 2009 Annual
  ACM Symposium on Applied Computing ACM
  SAC 2009
                                              62
α – direção
β – ajuste de escala
δ – dissimilaridade
δ/∑δ – peso relativo
                       63
LOPES, A. A., PINHO, R.,
 PAULOVICH, F. V., AND
 MINGHIM, R. 2007. Visual
 text mining using
 association rules. Computer
 and Graphics. 31, 3 (Jun.
 2007), 316-326.               64
65
LWR




Tamanho, termos distintos, cobertura e suporte mínimo para conjuntos
             de regras extraídos de corpus de notícias



   66
1.       Elementos são associados a um
         agrupamento
2.       Células assumem o agrupamento do
         elemento que a ocupa
3.       Ao ser movido, o agrupamento do elemento
         é reavaliado
         Se igual à célula destino, permanece
         Se diferente, seleciona-se a opção mais
          adequada (ex. distância ao centróide)
         Atualiza a célula                         67
 ferramentas e aplicações
  desenvolvidas e com relação
  direta com a tese
 contribuições cujo tema
  tangencia os temas principais

                                  68
   APIs para os algoritmos desenvolvidos;
   Ferramenta Voromap para avaliação de
    visualização com base em partições do plano;
   Avaliação da ferramenta PEX-WEB;
   Aplicação de VTM para a realização de
    revisões sistemáticas;



                                                   69
   Ferramentas desenvolvidas:
     Topic Pex
     incBoard;
   Evolução do incBoard:
     HexBoard
     incScape (não presente na tese)




                                        70
Espaço de documentos




                   71
Espaço de documentos




                   72
73
74
75
 Ajuste
  Sistema de coordenadas: x,y,z
  Cálculo de distâncias




                                   76
   Em destaque
     conjuntos cujos itens são alterados
     melhoria do processo de agrupamento
      incremental
     melhoria do refino interativo de mapas/tópicos 
      R. Rodrigues
     topical markers
     manipulação direta


                                                         77
   Uma necessidade de informação –
    materializada como uma descrição, lista de
    termos ou como uma consulta a ser
    apresentada a uma ferramenta de
    recuperação de informação;
   Um conjunto de documentos relativos a um
    mesmo assunto ou que atendem a uma
    necessidade de informação;
    Lista de termos descritivos de um assunto
    ou conjunto de documentos.
                                                 78
   Tópico: a descrição dada a um conjunto de
    documentos, usualmente relacionados entre
    si, tipicamente representada por uma lista de
    termos e ao qual corresponde um conjunto
    de documentos por ele cobertos, i.e., que
    abordam o tema em questão, o que é, em
    geral, verificado pela presença da lista de
    termos nos documentos.

                                                    79
 Rotina externa de extração em C
 Limite máximo de termos em regras
 Limite máximo de regras extraídas
 Filtro de termos por peso local


      Objetivo: manter o tempo de
    processamento compatível com o
              cenário de uso
                                      80

Mais conteúdo relacionado

Semelhante a Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"Andrew Edberg
 
Sistemas Baseados em Casos (Parte I)
Sistemas Baseados em Casos (Parte I)Sistemas Baseados em Casos (Parte I)
Sistemas Baseados em Casos (Parte I)Fabiana Lorenzi
 
Aprendizado Profundo & CNNs
Aprendizado Profundo & CNNsAprendizado Profundo & CNNs
Aprendizado Profundo & CNNsFabio Spanhol
 
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Paulo Correia
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Orlando Junior
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 finalDanusa Ribeiro
 
Análise da Arquitetura Baars-Franklin de Consciência Artificial Aplicada a...
Análise da Arquitetura  Baars-Franklin de  Consciência Artificial  Aplicada a...Análise da Arquitetura  Baars-Franklin de  Consciência Artificial  Aplicada a...
Análise da Arquitetura Baars-Franklin de Consciência Artificial Aplicada a...capitanio
 
Mineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualMineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualLuis Miguel Rojas Aguilera
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaLuís Nunes
 
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2João Gabriel Lima
 
apresentacao_metricas_avaliacao_persistencia_de_dados.pdf
apresentacao_metricas_avaliacao_persistencia_de_dados.pdfapresentacao_metricas_avaliacao_persistencia_de_dados.pdf
apresentacao_metricas_avaliacao_persistencia_de_dados.pdfLorramNascimento
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de ClusterizaçãoGabriel Peixe
 
Comparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQLComparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQLpichiliani
 

Semelhante a Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos (20)

Padrões de Projeto
Padrões de ProjetoPadrões de Projeto
Padrões de Projeto
 
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"Defesa de Artigo: "GPU-NB: A Fast CUDA -based  Implementation of Naive Bayes"
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"
 
Sistemas Baseados em Casos (Parte I)
Sistemas Baseados em Casos (Parte I)Sistemas Baseados em Casos (Parte I)
Sistemas Baseados em Casos (Parte I)
 
Clustering (Agrupamento)
Clustering (Agrupamento)Clustering (Agrupamento)
Clustering (Agrupamento)
 
Aprendizado Profundo & CNNs
Aprendizado Profundo & CNNsAprendizado Profundo & CNNs
Aprendizado Profundo & CNNs
 
High Dimensional Data
High Dimensional DataHigh Dimensional Data
High Dimensional Data
 
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
Mapa conceitual associado à imagens: um recurso que favorece a aprendizagem?
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
ID3 Algorithm
ID3 AlgorithmID3 Algorithm
ID3 Algorithm
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 final
 
Análise da Arquitetura Baars-Franklin de Consciência Artificial Aplicada a...
Análise da Arquitetura  Baars-Franklin de  Consciência Artificial  Aplicada a...Análise da Arquitetura  Baars-Franklin de  Consciência Artificial  Aplicada a...
Análise da Arquitetura Baars-Franklin de Consciência Artificial Aplicada a...
 
Prova perito pf area 3 1997
Prova perito pf area 3 1997Prova perito pf area 3 1997
Prova perito pf area 3 1997
 
Mineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitualMineração de dados com a presença da deriva conceitual
Mineração de dados com a presença da deriva conceitual
 
00011
0001100011
00011
 
Aprendizagem Não-Supervisionada
Aprendizagem Não-SupervisionadaAprendizagem Não-Supervisionada
Aprendizagem Não-Supervisionada
 
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
 
apresentacao_metricas_avaliacao_persistencia_de_dados.pdf
apresentacao_metricas_avaliacao_persistencia_de_dados.pdfapresentacao_metricas_avaliacao_persistencia_de_dados.pdf
apresentacao_metricas_avaliacao_persistencia_de_dados.pdf
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
DAMICORE - conceito e prática
DAMICORE - conceito e práticaDAMICORE - conceito e prática
DAMICORE - conceito e prática
 
Comparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQLComparação de desempenho entre SQL e NoSQL
Comparação de desempenho entre SQL e NoSQL
 

Mais de Roberto de Pinho

Avaliação de impacto em Ciência, Tecnologia e Inovação
Avaliação de impacto em Ciência, Tecnologia e InovaçãoAvaliação de impacto em Ciência, Tecnologia e Inovação
Avaliação de impacto em Ciência, Tecnologia e InovaçãoRoberto de Pinho
 
Rumo a uma política de dados científicos
Rumo a uma política de dados científicosRumo a uma política de dados científicos
Rumo a uma política de dados científicosRoberto de Pinho
 
Towards a scientific data policy
Towards a scientific data policy Towards a scientific data policy
Towards a scientific data policy Roberto de Pinho
 
Cientometria: Duas xícaras de ciência e três pitadas de citações
Cientometria: Duas xícaras de ciência e três pitadas de citações Cientometria: Duas xícaras de ciência e três pitadas de citações
Cientometria: Duas xícaras de ciência e três pitadas de citações Roberto de Pinho
 
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloIndicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloRoberto de Pinho
 
Metodologia de Análise e Solução de Problemas (MASP)
Metodologia de Análise e Solução de Problemas (MASP)Metodologia de Análise e Solução de Problemas (MASP)
Metodologia de Análise e Solução de Problemas (MASP)Roberto de Pinho
 
Elaboração de Indicadores para quem tem pressa
Elaboração de Indicadores para quem tem pressaElaboração de Indicadores para quem tem pressa
Elaboração de Indicadores para quem tem pressaRoberto de Pinho
 
Indicadores bibliométricos
Indicadores bibliométricosIndicadores bibliométricos
Indicadores bibliométricosRoberto de Pinho
 
Evolução e perspectivas dos investimentos em CTI no Brasil
Evolução e perspectivas dos investimentos em CTI no BrasilEvolução e perspectivas dos investimentos em CTI no Brasil
Evolução e perspectivas dos investimentos em CTI no BrasilRoberto de Pinho
 
Key words of Brazilian science
Key words of Brazilian scienceKey words of Brazilian science
Key words of Brazilian scienceRoberto de Pinho
 
Doutores 2010-word-clouds_apres
 Doutores 2010-word-clouds_apres Doutores 2010-word-clouds_apres
Doutores 2010-word-clouds_apresRoberto de Pinho
 
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...Roberto de Pinho
 
In vino veritas - Dans le vin la vérité - L’étiquette de vin
In vino veritas -  Dans le vin la vérité - L’étiquette de vinIn vino veritas -  Dans le vin la vérité - L’étiquette de vin
In vino veritas - Dans le vin la vérité - L’étiquette de vinRoberto de Pinho
 
Dados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de basesDados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de basesRoberto de Pinho
 

Mais de Roberto de Pinho (19)

Avaliação de impacto em Ciência, Tecnologia e Inovação
Avaliação de impacto em Ciência, Tecnologia e InovaçãoAvaliação de impacto em Ciência, Tecnologia e Inovação
Avaliação de impacto em Ciência, Tecnologia e Inovação
 
Rumo a uma política de dados científicos
Rumo a uma política de dados científicosRumo a uma política de dados científicos
Rumo a uma política de dados científicos
 
Towards a scientific data policy
Towards a scientific data policy Towards a scientific data policy
Towards a scientific data policy
 
Cientometria: Duas xícaras de ciência e três pitadas de citações
Cientometria: Duas xícaras de ciência e três pitadas de citações Cientometria: Duas xícaras de ciência e três pitadas de citações
Cientometria: Duas xícaras de ciência e três pitadas de citações
 
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloIndicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
 
Fábrica de Experiência
Fábrica de ExperiênciaFábrica de Experiência
Fábrica de Experiência
 
Metodologia de Análise e Solução de Problemas (MASP)
Metodologia de Análise e Solução de Problemas (MASP)Metodologia de Análise e Solução de Problemas (MASP)
Metodologia de Análise e Solução de Problemas (MASP)
 
Natureza dos Problemas
Natureza dos ProblemasNatureza dos Problemas
Natureza dos Problemas
 
Elaboração de Indicadores para quem tem pressa
Elaboração de Indicadores para quem tem pressaElaboração de Indicadores para quem tem pressa
Elaboração de Indicadores para quem tem pressa
 
Indicadores bibliométricos
Indicadores bibliométricosIndicadores bibliométricos
Indicadores bibliométricos
 
Evolução e perspectivas dos investimentos em CTI no Brasil
Evolução e perspectivas dos investimentos em CTI no BrasilEvolução e perspectivas dos investimentos em CTI no Brasil
Evolução e perspectivas dos investimentos em CTI no Brasil
 
As Coisas e Os Dados
As Coisas e Os DadosAs Coisas e Os Dados
As Coisas e Os Dados
 
Key words of Brazilian science
Key words of Brazilian scienceKey words of Brazilian science
Key words of Brazilian science
 
Doutores 2010-word-clouds_apres
 Doutores 2010-word-clouds_apres Doutores 2010-word-clouds_apres
Doutores 2010-word-clouds_apres
 
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
Dados abertos: dados pessoais e anonimização de bases" no II Encontro Naciona...
 
In vino veritas - Dans le vin la vérité - L’étiquette de vin
In vino veritas -  Dans le vin la vérité - L’étiquette de vinIn vino veritas -  Dans le vin la vérité - L’étiquette de vin
In vino veritas - Dans le vin la vérité - L’étiquette de vin
 
Dados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de basesDados abertos: dados pessoais e anonimização de bases
Dados abertos: dados pessoais e anonimização de bases
 
Basic R
Basic RBasic R
Basic R
 
Curso Básico de R
Curso Básico de RCurso Básico de R
Curso Básico de R
 

Último

Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveaulasgege
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfaulasgege
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxSlides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
A experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxA experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxfabiolalopesmartins1
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
Pedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxPedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxleandropereira983288
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
Lírica Camoniana- A mudança na lírica de Camões.pptx
Lírica Camoniana- A mudança na lírica de Camões.pptxLírica Camoniana- A mudança na lírica de Camões.pptx
Lírica Camoniana- A mudança na lírica de Camões.pptxfabiolalopesmartins1
 
Regência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfRegência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfmirandadudu08
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?Rosalina Simão Nunes
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasillucasp132400
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfAdrianaCunha84
 

Último (20)

Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdf
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptxSlides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
Slides Lição 4, Betel, Ordenança quanto à contribuição financeira, 2Tr24.pptx
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
A experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptxA experiência amorosa e a reflexão sobre o Amor.pptx
A experiência amorosa e a reflexão sobre o Amor.pptx
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
Pedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptxPedologia- Geografia - Geologia - aula_01.pptx
Pedologia- Geografia - Geologia - aula_01.pptx
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
Lírica Camoniana- A mudança na lírica de Camões.pptx
Lírica Camoniana- A mudança na lírica de Camões.pptxLírica Camoniana- A mudança na lírica de Camões.pptx
Lírica Camoniana- A mudança na lírica de Camões.pptx
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
Regência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdfRegência Nominal e Verbal português .pdf
Regência Nominal e Verbal português .pdf
 
E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?E agora?! Já não avalio as atitudes e valores?
E agora?! Já não avalio as atitudes e valores?
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
Governo Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 BrasilGoverno Provisório Era Vargas 1930-1934 Brasil
Governo Provisório Era Vargas 1930-1934 Brasil
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdf
 

Espaço incremental para a mineração visual de conjuntos dinâmicos de documentos

  • 1. CCMC – ICMC – USP São Carlos, SP 5 de Junho de 2009 1
  • 2. 2
  • 3. Contexto  Problema  Posicionamento incremental  Regras de associação para identificar tópicos  Mineração visual para conjuntos dinâmicos de documentos  Contribuições  Trabalhos futuros 3
  • 4. Visualização de domínios de conhecimento Mineração de dados  Mineração de dados textuais Mineração visual de dados 4
  • 5. Posicionamento por similaridade  Wise (1999); Börner (2003); Bederson (2001); ...  Identificação de tópicos em mapas  Wise(1999);Skupin (2002); Chen (2004) ... 5
  • 6.  Necessidade de mapa cognitivo para navegar espaços conceituais (Chen,2004)  Visualização de conjuntos dinâmicos como problema relevante  Ao visualizar conjuntos dinâmicos, é importante preservar o contexto dos usuários (Hetzler, 2005) 6
  • 7. Outras soluções  Refazer toda a visualização  Reutilizar solução inicial, refazer periodicamente Ex. Wong et al (2003) 7
  • 8.  Construir mapas de conjuntos dinâmicos de documentos  Manter representação adequada à medida que elementos são acrescentados ou retirados  Minimizar alterações 8
  • 9.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares C 6,5 5 2 4.75 A 2 B A B C 9
  • 10.  Técnica incremental de Multidimentional Scaling - MDS  Utiliza medidas de similaridade entre pares 5 5 A B C C 5 5 2,5 2,5 A 5 B A B C ABC 10
  • 12.  Não refaz a visualização a cada alteração  Não mantem solução inicial fixa  Baixo custo: pior caso: O(N2), caso médio: O(N √N)  Disposição consistente de elementos 12
  • 13. 178 documentos 294 documentos 675 documentos 13
  • 14. Visualização de conjuntos dinâmicos de documentos  Outros domínios  Navegação em sistema operacional  Tag Clouds  Dados multidimensionais  Coleções de imagens (Rodden et al;1999, 2001)  Não há oclusão 14
  • 15. Análogo ao um tabuleiro de xadrez  Distância de Chebyschev:  Relação com o espaço original (erro ponderado)+ desempate por qtd ponderada 15
  • 16. Avaliação de alternativas: 16
  • 17. Elemento aprisionado: 17
  • 18. Elemento aprisionado: 18
  • 19. Elemento aprisionado: 19
  • 20. Movimento em direção ao centro: 20
  • 21.  Novo elemento adicionado na célula do elemento mais similar  Avaliação de alternativas:  Modo completo: utilização do conjunto completo  Modo estocástico: Lista de elementos próximos e lista de elementos aleatórios (Chalmers, 1996) 21
  • 22. CBR-ILP-IR-SON: 22
  • 23. Conjunto inicial Conjunto intermediário Conjunto final O(VxN):O(N) 23
  • 24. 24
  • 25.  Mineração de textos com regras de associação  Documentos » Transações  Termos » Itens Nashville, Tenessee -> Tornadoes com suporte 5% e confiança 100% 25
  • 26. 26
  • 27.  Co-ocorrência de termos ≈ assunto  Tópico: descrição de um conjunto de documentos relacionados, representada por uma lista de term0s.  Um tópico cobre um conjunto de documentos nos quais os termos co- ocorrem. 27
  • 28.  Quantidade de regras descobertas  Redundância de regras  Relevância dos termos (itens)‫‏‬  Medida de relevância para regras (filtragem)‫‏‬ 28
  • 29. Alto suporte Espaço de regras 29
  • 30. Baixo suporte Espaço de regras 30
  • 31. 1. Sk: conjunto de documentos similares 2. Identificar os termos mais relevantes 31
  • 33. “Flu” 33
  • 34. 3. Conjunto Inicial de item sets: Tr x T  Termos relevantes x Todos os termos 4. Aplicação do Apriori (qtd termos > 2) 5. Ordenados por peso: 34
  • 35. 6. Item set de maior peso é selecionado 7. Documentos cobertos eliminados de Sk 8. Outros item sets são selecionados se há suporte em Sk residual ( repete 6 & 7 )‫‏‬ 9 . Se todos os item sets são considerados |Sk residual| ≠ , repete todo o processo com Sk residual 35
  • 36. Múltiplo início  Agrupamentos no mapa – vários níveis  Grade ▪ Célula de tamanho variável ▪ Deslocamento da grade 36
  • 37. LWR 37
  • 38. Vantagens  Resultados em múltiplos níveis. ▪ Ex [bird, flu]; [bird,flu,swan];  Baixa sensibilidade para parâmetros  Desvantagens  Resultados não satisfatórios para um pequeno número de subconjuntos ou seleções muito grandes (aprox. |Sk| > |C|/4) 38
  • 39. 39
  • 40. 40
  • 41. 41
  • 42. 1. Construção do mapa 2. Extração de tópicos 3. Análise de tópicos centrada no usuário i. Remoção de tópicos irrelevantes ii. Generalização de tópicos 4. Reconstrução do mapa 42
  • 43. Estratégia de atualização incremental de agrupamentos  Existem soluções: ex. GenIc (Gupta e Grossman, 2004)  Viés adotado: contribuição do posicionamento de elementos no mapa  Estratégia de atualização incremental de tópicos  Heurísticas: não repetir o processo a cada passo 43
  • 44. 44
  • 45. ? 45
  • 46. Efeito do viés  Tendência a formar agrupamentos coesos no mapa  Solução não ótima  Eventual degeneração da solução  Solução atual: refazer o agrupamento  Espaço para melhoria 46
  • 47.  Perguntas  quando deve um tópico ser eliminado?  quando devem ser acrescentados novos tópicos?  Abordagem  Avaliação dos termos semente 47
  • 48. 1. Extração inicial de tópicos 2. A cada alteração nos agrupamentos, atualiza-se a lista de termos semente 3. Se um tópico existente não possue nenhuma das atuais sementes, ele é excluído 4. Se um novo termo semente aparece, extrair tópicos para aquele termo 5. Novas relações para sementes: controle de alterações no suporte do termo. A cada passo, o termo de maior variação é reavaliado 48
  • 49. Objetivo: manter o tempo de processamento compatível com o cenário de uso 49
  • 50.  Um novo algoritmo para a projeção incremental de conjuntos dinâmicos de dados multidimensionais  Uma visualização para conjuntos dinâmicos de dados multidimensionais que não sofre problemas de oclusão 50
  • 51. Um algoritmo seletivo de indução de regras de associação que explora grupos de documentos similares  Um processo iterativo e interativo de mineração visual de textos  Um espaço incremental que: minimiza alterações, mantem uma representação consistente e reflete a dinâmica dos dados 51
  • 52.  aplicação do algoritmo incremental de projeção em cenários específicos de uso e validação  melhoria de pontos específicos do algoritmo  Ex. Identificação de elementos similares  investigação de novas possibilidades de interação e visualização  Ex. melhoria do refino interativo de mapas/tópicos  Dissertação R. Rodrigues 52
  • 53. 53
  • 54. Além da discussão constante com as orientadoras, este trabalho contou com  Contribuições do Prof. Dr. Alneu Lopes  Contribuições do Prof. Dr. Chaomei Chen  Desenvolvimento de software e contribuições de Renato Rodrigues  Plataforma PEx (Prof. Dr. Fernando Paulovich) para o teste e incorporação de soluções  Contribuições de colegas na USP e Drexel 54
  • 55. Bolsa CAPES  Bolsa FAPESP  Bolsa CAPES PDDE (doutorado sanduíche) 55
  • 57. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. Incremental board: A grid-based space for visualizing dynamic data sets. In: Proceedings of the 2009 Annual ACM Symposium on Applied Computing, New York, NY, USA:ACM, 2009, p. 1757–1764. (Best Paper Award in the Information System Theme - Prêmio de melhor trabalho na área Sistemas de Informação). 57
  • 58. Photomesa by HCI Lab at the Univ. of Maryland 58
  • 59. Critério de Desempate 59
  • 60. Iris Data Set 60
  • 61. PINHO, R.; OLIVEIRA, M. C. F. HexBoard: Conveying Pairwise Similarity in an Incremental Visualization Space. In: IV ’09: 13th International Conference Information Visualisation (em publicação), 2009. 61
  • 62. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An incremental space to visualize dynamic data sets. Convidado para submissão para edição especial do Multimedia Tools and Applications Journal (MTAP) com os melhores trabalhos em Multimídia e Visualização (MMV track) do 2009 Annual ACM Symposium on Applied Computing ACM SAC 2009 62
  • 63. α – direção β – ajuste de escala δ – dissimilaridade δ/∑δ – peso relativo 63
  • 64. LOPES, A. A., PINHO, R., PAULOVICH, F. V., AND MINGHIM, R. 2007. Visual text mining using association rules. Computer and Graphics. 31, 3 (Jun. 2007), 316-326. 64
  • 65. 65
  • 66. LWR Tamanho, termos distintos, cobertura e suporte mínimo para conjuntos de regras extraídos de corpus de notícias 66
  • 67. 1. Elementos são associados a um agrupamento 2. Células assumem o agrupamento do elemento que a ocupa 3. Ao ser movido, o agrupamento do elemento é reavaliado  Se igual à célula destino, permanece  Se diferente, seleciona-se a opção mais adequada (ex. distância ao centróide)  Atualiza a célula 67
  • 68.  ferramentas e aplicações desenvolvidas e com relação direta com a tese  contribuições cujo tema tangencia os temas principais 68
  • 69. APIs para os algoritmos desenvolvidos;  Ferramenta Voromap para avaliação de visualização com base em partições do plano;  Avaliação da ferramenta PEX-WEB;  Aplicação de VTM para a realização de revisões sistemáticas; 69
  • 70. Ferramentas desenvolvidas:  Topic Pex  incBoard;  Evolução do incBoard:  HexBoard  incScape (não presente na tese) 70
  • 73. 73
  • 74. 74
  • 75. 75
  • 76.  Ajuste  Sistema de coordenadas: x,y,z  Cálculo de distâncias 76
  • 77. Em destaque  conjuntos cujos itens são alterados  melhoria do processo de agrupamento incremental  melhoria do refino interativo de mapas/tópicos  R. Rodrigues  topical markers  manipulação direta 77
  • 78. Uma necessidade de informação – materializada como uma descrição, lista de termos ou como uma consulta a ser apresentada a uma ferramenta de recuperação de informação;  Um conjunto de documentos relativos a um mesmo assunto ou que atendem a uma necessidade de informação;  Lista de termos descritivos de um assunto ou conjunto de documentos. 78
  • 79. Tópico: a descrição dada a um conjunto de documentos, usualmente relacionados entre si, tipicamente representada por uma lista de termos e ao qual corresponde um conjunto de documentos por ele cobertos, i.e., que abordam o tema em questão, o que é, em geral, verificado pela presença da lista de termos nos documentos. 79
  • 80.  Rotina externa de extração em C  Limite máximo de termos em regras  Limite máximo de regras extraídas  Filtro de termos por peso local Objetivo: manter o tempo de processamento compatível com o cenário de uso 80