1. O documento descreve uma técnica incremental para visualizar conjuntos dinâmicos de documentos.
2. A técnica usa escalonamento multidimensional incremental para projetar novos documentos no espaço visual de forma a minimizar alterações na disposição dos documentos existentes.
3. A técnica também permite a extração incremental de tópicos dos documentos à medida que novos documentos são adicionados ou removidos do conjunto.
3. Contexto
Problema
Posicionamento incremental
Regras de associação para identificar tópicos
Mineração visual para conjuntos dinâmicos
de documentos
Contribuições
Trabalhos futuros
3
4. Visualização de domínios
de conhecimento
Mineração de dados
Mineração de dados textuais
Mineração visual de dados
4
5. Posicionamento por similaridade
Wise (1999); Börner (2003); Bederson (2001); ...
Identificação de tópicos em mapas
Wise(1999);Skupin (2002); Chen (2004) ...
5
6. Necessidade de mapa cognitivo para
navegar espaços conceituais
(Chen,2004)
Visualização de conjuntos dinâmicos
como problema relevante
Ao visualizar conjuntos dinâmicos, é
importante preservar o contexto dos
usuários (Hetzler, 2005)
6
7. Outras soluções
Refazer toda a visualização
Reutilizar solução inicial, refazer
periodicamente Ex. Wong et al (2003)
7
8. Construir mapas de conjuntos
dinâmicos de documentos
Manter representação adequada
à medida que elementos são
acrescentados ou retirados
Minimizar alterações
8
9. Técnica incremental de Multidimentional
Scaling - MDS
Utiliza medidas de similaridade entre
pares C
6,5 5
2 4.75
A 2 B A B C
9
10. Técnica incremental de Multidimentional
Scaling - MDS
Utiliza medidas de similaridade entre
pares 5 5
A B C
C
5 5
2,5 2,5
A 5 B A B C
ABC
10
12. Não refaz a visualização a cada
alteração
Não mantem solução inicial fixa
Baixo custo: pior caso: O(N2), caso
médio: O(N √N)
Disposição consistente de
elementos
12
14. Visualização de conjuntos dinâmicos de
documentos
Outros domínios
Navegação em sistema operacional
Tag Clouds
Dados multidimensionais
Coleções de imagens (Rodden et al;1999, 2001)
Não há oclusão
14
15. Análogo ao um tabuleiro de xadrez
Distância de Chebyschev:
Relação com o espaço original
(erro ponderado)+ desempate por qtd ponderada
15
21. Novo elemento adicionado na célula do
elemento mais similar
Avaliação de alternativas:
Modo completo: utilização do conjunto
completo
Modo estocástico: Lista de elementos
próximos e lista de elementos aleatórios
(Chalmers, 1996)
21
27. Co-ocorrência de termos ≈ assunto
Tópico: descrição de um conjunto de
documentos relacionados,
representada por uma lista de
term0s.
Um tópico cobre um conjunto de
documentos nos quais os termos co-
ocorrem. 27
28. Quantidade de regras
descobertas
Redundância de regras
Relevância dos termos (itens)
Medida de relevância para
regras (filtragem)
28
34. 3. Conjunto Inicial de item sets: Tr x T
Termos relevantes x Todos os termos
4. Aplicação do Apriori (qtd termos > 2)
5. Ordenados por peso:
34
35. 6. Item set de maior peso é selecionado
7. Documentos cobertos eliminados de Sk
8. Outros item sets são selecionados se há
suporte em Sk residual ( repete 6 & 7 )
9 . Se todos os item sets são considerados
|Sk residual| ≠ , repete todo o processo
com Sk residual
35
36. Múltiplo início
Agrupamentos no
mapa – vários
níveis
Grade
▪ Célula de tamanho
variável
▪ Deslocamento da
grade
36
38. Vantagens
Resultados em múltiplos níveis.
▪ Ex [bird, flu]; [bird,flu,swan];
Baixa sensibilidade para parâmetros
Desvantagens
Resultados não satisfatórios para um pequeno
número de subconjuntos ou seleções muito
grandes (aprox. |Sk| > |C|/4)
38
42. 1. Construção do mapa
2. Extração de tópicos
3. Análise de tópicos centrada no
usuário
i. Remoção de tópicos irrelevantes
ii. Generalização de tópicos
4. Reconstrução do mapa
42
43. Estratégia de atualização incremental de
agrupamentos
Existem soluções: ex. GenIc (Gupta e Grossman,
2004)
Viés adotado: contribuição do posicionamento de
elementos no mapa
Estratégia de atualização incremental de
tópicos
Heurísticas: não repetir o processo a cada passo
43
46. Efeito do viés
Tendência a formar agrupamentos coesos no
mapa
Solução não ótima
Eventual degeneração da solução
Solução atual: refazer o agrupamento
Espaço para melhoria
46
47. Perguntas
quando deve um tópico ser eliminado?
quando devem ser acrescentados
novos tópicos?
Abordagem
Avaliação dos termos semente
47
48. 1. Extração inicial de tópicos
2. A cada alteração nos agrupamentos, atualiza-se
a lista de termos semente
3. Se um tópico existente não possue nenhuma
das atuais sementes, ele é excluído
4. Se um novo termo semente aparece, extrair
tópicos para aquele termo
5. Novas relações para sementes: controle de
alterações no suporte do termo. A cada passo, o
termo de maior variação é reavaliado
48
49. Objetivo: manter o tempo de
processamento compatível com o
cenário de uso
49
50. Um novo algoritmo para a projeção
incremental de conjuntos dinâmicos
de dados multidimensionais
Uma visualização para conjuntos
dinâmicos de dados
multidimensionais que não sofre
problemas de oclusão
50
51. Um algoritmo seletivo de indução de regras
de associação que explora grupos de
documentos similares
Um processo iterativo e interativo de
mineração visual de textos
Um espaço incremental que: minimiza
alterações, mantem uma representação
consistente e reflete a dinâmica dos dados
51
52. aplicação do algoritmo incremental de
projeção em cenários específicos de uso e
validação
melhoria de pontos específicos do
algoritmo
Ex. Identificação de elementos similares
investigação de novas possibilidades de
interação e visualização
Ex. melhoria do refino interativo de
mapas/tópicos Dissertação R. Rodrigues
52
54. Além da discussão constante com as
orientadoras, este trabalho contou com
Contribuições do Prof. Dr. Alneu Lopes
Contribuições do Prof. Dr. Chaomei Chen
Desenvolvimento de software e contribuições de
Renato Rodrigues
Plataforma PEx (Prof. Dr. Fernando Paulovich)
para o teste e incorporação de soluções
Contribuições de colegas na USP e Drexel
54
55. Bolsa CAPES
Bolsa FAPESP
Bolsa CAPES PDDE (doutorado
sanduíche)
55
57. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F.
Incremental board: A grid-based space for
visualizing dynamic data sets. In:
Proceedings of the 2009 Annual ACM
Symposium on Applied Computing, New
York, NY, USA:ACM, 2009, p. 1757–1764.
(Best Paper Award in the Information System
Theme - Prêmio de melhor trabalho na área
Sistemas de Informação).
57
58. Photomesa by HCI Lab at the Univ. of Maryland
58
61. PINHO, R.; OLIVEIRA, M. C. F.
HexBoard: Conveying Pairwise
Similarity in an Incremental
Visualization Space. In: IV ’09: 13th
International Conference
Information Visualisation (em
publicação), 2009.
61
62. PINHO, R.; LOPES, A.; OLIVEIRA, M. C. F. An
incremental space to visualize dynamic
data sets. Convidado para submissão para
edição especial do Multimedia Tools and
Applications Journal (MTAP) com os
melhores trabalhos em Multimídia e
Visualização (MMV track) do 2009 Annual
ACM Symposium on Applied Computing ACM
SAC 2009
62
64. LOPES, A. A., PINHO, R.,
PAULOVICH, F. V., AND
MINGHIM, R. 2007. Visual
text mining using
association rules. Computer
and Graphics. 31, 3 (Jun.
2007), 316-326. 64
67. 1. Elementos são associados a um
agrupamento
2. Células assumem o agrupamento do
elemento que a ocupa
3. Ao ser movido, o agrupamento do elemento
é reavaliado
Se igual à célula destino, permanece
Se diferente, seleciona-se a opção mais
adequada (ex. distância ao centróide)
Atualiza a célula 67
68. ferramentas e aplicações
desenvolvidas e com relação
direta com a tese
contribuições cujo tema
tangencia os temas principais
68
69. APIs para os algoritmos desenvolvidos;
Ferramenta Voromap para avaliação de
visualização com base em partições do plano;
Avaliação da ferramenta PEX-WEB;
Aplicação de VTM para a realização de
revisões sistemáticas;
69
70. Ferramentas desenvolvidas:
Topic Pex
incBoard;
Evolução do incBoard:
HexBoard
incScape (não presente na tese)
70
76. Ajuste
Sistema de coordenadas: x,y,z
Cálculo de distâncias
76
77. Em destaque
conjuntos cujos itens são alterados
melhoria do processo de agrupamento
incremental
melhoria do refino interativo de mapas/tópicos
R. Rodrigues
topical markers
manipulação direta
77
78. Uma necessidade de informação –
materializada como uma descrição, lista de
termos ou como uma consulta a ser
apresentada a uma ferramenta de
recuperação de informação;
Um conjunto de documentos relativos a um
mesmo assunto ou que atendem a uma
necessidade de informação;
Lista de termos descritivos de um assunto
ou conjunto de documentos.
78
79. Tópico: a descrição dada a um conjunto de
documentos, usualmente relacionados entre
si, tipicamente representada por uma lista de
termos e ao qual corresponde um conjunto
de documentos por ele cobertos, i.e., que
abordam o tema em questão, o que é, em
geral, verificado pela presença da lista de
termos nos documentos.
79
80. Rotina externa de extração em C
Limite máximo de termos em regras
Limite máximo de regras extraídas
Filtro de termos por peso local
Objetivo: manter o tempo de
processamento compatível com o
cenário de uso
80