This paper proposes the use of a Common Sense Knowledge Base (like the MIT’s OMCS projects) as a resource for building web site organization systems in Information Architecture projects that intend to take into consideration the people’s common sense.
Apresentação de defesa de dissertação de mestrado.
Atualidades da pesquisa juridica: fontes de informação e organização
Organização de sites com base no contexto de senso comum
1. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 1 Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da Informação de Web Sites Wanderley S. Wang wanderleywang@yahoo.com.br Orientadora: Profª. Dra. Lucia Vilela L. Filgueiras Abril/2009
2. Agenda I - Introdução II - Base teórica III - Proposta IV - Prova de Conceito V - Análise dos Resultados VI - Conclusões IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 2
3. I - Introdução 3 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
4. Motivação De acordo com a literatura pesquisada, em sites onde se sentem mais familiarizados com o esquema de organização os usuários encontram o que procuram com mais facilidade, o que torna sua visita uma experiência melhor. Objetivo de interesse para sites como o Portal da Família (www.portaldafamilia.org.br): - artigos de orientação sobre o tema Família - mais de 1.400 itens de conteúdo - 15 grandes seções - mais de 8 mil visitas/dia. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 4
5. Objetivo IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 5
6. Senso Comum “Senso comum é um conceito abstrato que surgiu no final da década de 50, e se relaciona a fatos do nosso dia-a-dia, que usamos sem mesmo pensar sobre eles - conhecimento comum, ou, mais genericamente, conhecimento do mundo. Coisas simples tais como os fatos de algo cair para baixo, de em um casamento existir pelo menos um noivo e uma noiva e que um filho é mais jovem que seu pai.” Profª. Dra. Junia Coutinho Anacleto IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 6
10. Principais áreas de conhecimento pesquisadas Arquitetura da Informação (AI) Interação Humano-Computador (IHC) Conhecimento de Senso Comum Mineração de Textos (Data Mining) Recuperação da Informação (InformationRetrieval) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 9
11. Fontes de pesquisa IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 10
12. II – Base Teórica 11 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
13. 12 Aspectos da qualidade de web sites Encontrabilidade (“Findability”): Grau de facilidade com que uma determinada informação (ou objeto) é localizável. Aplicável tanto à informação em si quanto ao web site como um todo. (Peter Morville, 2005) The User Experience Honeycomb - Semantic Studios - 2004 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
14. 13 Conceitos da Teoria do Forragear Informação Comportamento dos usuários ao procurar informação Forragear : “vasculhar, remexer, à procura de algo” ou “o ser vivo procurar alimento, lançando mão de estratégias especializadas, desenvolvidas no âmbito da espécie” (Dicionário Houaiss, 2001). Quando as pessoas pesquisam informações à procura de suas respostas elas exibem o mesmo comportamento que animais caçando suas presas (CHALMERS, 2000). As pessoas tornam-se “informívoros” (analogia à “carnívoros” e “herbívoros”) na caça por informação. Satisficing (“suficientemente satisfatório”) = "satisfy" + "suffice“ Pessoas atuam sob “racionalidade limitada” (“boundedrationality”), onde há limites de tempo e de recursos para tomada de decisões. Herbert Simon, prêmio Nobel de economia IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
15. 14 Cheiro da Informação Cheiro da Informação (“ScentofInformation”): produzido por sinais associados aos links, que os usuários usam de forma subjetiva para prever a possível utilidade do conteúdo distante em relação ao seu objetivo. CHI et al., 2001; SPOOL, PERFETTI e BRITTAN (2004) Rótulos, texto ao redor, URL, imagens, símbolos Sinais (ex: palavras-gatilho, perfume) funcionam de acordo com um processo de propagação de ativação de idéias (“spreadingactivationmodels”). Um sinal ativa uma idéia dormente no cérebro, e essa idéia ativa outra, sucessivamente. PIROLLI (2007) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
16. 15 Organização hierárquica do tipo ambígua Exemplos de técnicas usadas Escolhas do projetista (MORVILLE e ROSENFELD, 2006) CardSorting (REIS, 2007) Entrevistas com usuários e envolvidos / Análise de concorrentes Participação dos usuários / Análise pelo título e breve descrição Dependência da capacidade de percepção do projetista Classificação compartimentada / pode ser inadequada para pesquisa exploratória. (MAURER e WARFEL, 2004) Classificação social (MORVILLE, 2005) Folcsonomia / categorização aberta e colaborativa Não estruturada / sem relacionamento formal Taxonomia colaborativa é desafio / Realizada a posteriori (NOY, CHUGH e ALANI, 2008) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
17. 16 Conceitos da Teoria do Forragear Informação A web é formada por inúmeras “regiões ou campos de informação” (web sites, lista de resultados de uma busca, ou mesmo áreas dentro de um site, relacionadas a um tipo específico de conteúdo ou de atividades) . CARD et al. (2001) Modelo da Dieta da Informação NIELSEN (2003) Nível do cheiro da informação das páginas antes de o usuário abandonar o site. PIROLLI (2007) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
18.
19. 25% refere-se a pesquisar informações específicas (como por exemplo, achar um determinado fato ou documento). (PIROLLI, 2007) Poderá haver problemas se as informações que o usuário procura estão fragmentadas em diversas regiões do site (navegação transversal). IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
20. 18 Bases de dados de Conhecimento de Senso Comum The Open Mind Common Sense Project - MIT MediaLab Open MindCommonSense no Brasil (OMCS-Br) LIA - Laboratório de Interação Avançada Depto. Ciência da Computação - UFSCar Aplicações www.sensocomum.ufscar.br IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
21. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 19 Temas e Atividades do projeto OMCS-Br
22. 20 Rede de Conceitos - ConceptNetBr IsA “fruta”: Maçã Laranja Pêra ... LocationOf “fruta”: Fruteira Mercado Pomar ... Conceitos são inter-relacionados segundo os 20 tipos de relações definidos com base na teoria de Minsky sobre como funciona a mente humana. (Ex.: LocationOf, PropertyOf, IsA, UsedFor) Adaptado de CARVALHO (2007) Hipótese: é possível usar esse conhecimento armazenado para criar uma organização de senso comum? IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
23. III – Proposta 21 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
24. 22 Organização de sites com base na similaridade de Contexto de Senso Comum Similaridade de Contexto Identificar e agrupar itens de conteúdo que tratam de um mesmo contexto Os termos em um documento ajudam a definir um contexto (CHEN et al., 1997). Crianças e diversão ≈ Filhos e passeios Definido por especialistas no assunto Ou definido por pessoas comuns > muitas pessoas > senso comum Diferente da similaridade léxica (expansão via Tesauros) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
25. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 23 CSCOS – CommonSenseContextOrganizationScheme Identificação automatizada da similaridade de contexto Graduar o nível de similaridade entre 2 itens Agrupar os itens mais similares entre si
26. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 24 Documentação do processo de geração do CSCOS
27. IV – Prova de Conceito 25 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
28. 26 Prova de Conceito do processo de geração do CSCOS 81 artigos representativos da seção Pais do site Portal da Família (40% da seção) Análise e comparação com a organização gerada através de cardsorting. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
29.
30. Título de cada artigo como única informação perceptível sobre cada item a classificarAssuntos compartimentados: livros, virtudes... IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
31. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 28 Etapas do processo de geração do CSCOS Ferramentas CSCOSGenerator Módulos: - Extrator - Captador - Assinador - CalcSim statistiXL
32.
33. Normalização: termos no singular, grau normal, verbos no infinitivo (dicionário DELAF_PB, usado na ConceptNetBr)
34. Consolidação das palavras-chave (cálculo da frequência)Palavras-chave distintas por artigo: Média: 164 Mínimo: 53 Máximo: 791 Assinatura léxica: 40 palavras-chave para caracterizar cada artigo (25% da média) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
35. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 30 Captador – Capta o contexto na ConceptNetBr Consultadas 3.929 palavras-chave dos textos do acervo. 72% das palavras-chave contempladas na ConceptNetBr. 133.518 conceitos retornados da ConceptNetBr. Diversos tipos de relação para cada conceito.
36. 31 Assinador - Geração da assinatura léxico-contextual de cada item de conteúdo Trecho da Assinatura Léxica Exemplo de resultados da ConceptNetBr Cada assinatura léxica (40 palavras-chave) recuperou, em média, 3.915 termos de contexto do senso comum da ConceptNetBr, sem repetição (mínimo de 1437, máximo de 7.332). IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
37. 32 Assinador – Normalização do peso de cada termo Trecho de Assinatura Léxico-Contextual Técnica usada: TF-IDF (“Term Frequency – Inverse Document Frequency”) - muito usada em algoritmos de recuperação da informação (McNEEet al., 2006). Relevância de um termo (peso) atribuído conforme o número de ocorrências desse termo no documento (TF) e em razão inversa de sua importância no conjunto de documentos da coleção (IDF). 80 termos: 40 mais frequentes do léxico 40 mais frequentes do contexto IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
38. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 33 CalcSim - Matriz de similaridade por Contexto de Senso Comum Técnica usada: Medida de Similaridade por Cosseno, para cálculo da similaridade entre documentos (BAYARDO et al., 2007).
39. 34 Análise de agrupamento - Dendogramagerado no processo CSCOS Técnica de clustering hierárquico com método “GroupAverage”. Ferramenta statistiXL. Variações de agrupamento ocorrem conforme composição e tamanho das assinaturas léxico-contextuais. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
40. V – Análise dos Resultados 35 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
41. 36 Detalhes de agrupamentos da prova de conceito Resumo esquemático Itens do tipo “livro”: distribuídos entre os agrupamentos. Há coerência? IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
45. 39 Análise qualitativa de agrupamentos - Exemplo Grupos gerados via CSCOS Por quê não agrupar “Meu filho é um irresponsável” e “Meu filho é desobediente” ? (site atual e Card Sorting) Motivo matemático: quantidade de termos de contexto em comum IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
46. 40 Análise qualitativa de agrupamentos - Exemplo Grupos gerados via CSCOS Por quê não agrupar “Meu filho é um irresponsável” e “Meu filho é desobediente” ? (site atual e Card Sorting) David Isaacs, autoridade mundial em educação e autor do livro "A educação das virtudes humanas“: A obediência é uma virtude a ser trabalhada pelos pais principalmente em crianças de 0 a 7 anos, tendo em conta os traços estruturais das idades e a natureza das virtudes, visto que 1) se não se desenvolve desde pequenos, é muito mais difícil depois; 2) é uma virtude necessária para permitir uma convivência feliz; 3) tranquiliza às mães de família. A virtude da responsabilidade é tratada com maior ênfase desde os 8 até os 12 anos (idade escolar da criança) visto que necessita de maior uso da vontade “para suportar incômodos, esforçar-se continuamente, alcançar o decidido e resistir a influências nocivas". Caso: Detecção automática de similaridade, condizente com teorias educacionais (David Isaacs) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
47. 41 Cada agrupamento torna-se um campo de informações úteis ao usuário se o usuário considerá-las “saborosas” (NIELSEN, 2003). Como evidenciar o “cheiro da informação” e diferenciar os grupos existentes nos links de navegação? Rótulos? IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
48. 42 Alguns casos de incertezas no Clustering Hierárquico Lista classificada dos itens mais similares a um dado item inicial: o item nº. 1 não formou grupo com seus três itens mais similares Ocorre no CSCOS, CardSorting... IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
49. 43 Sub-produtos do processo Recomendação de leitura a artigos similares acrescido de uma “textcloud”. Condizente com a abordagem de foco no conteúdo ao invés de foco na estrutura. HALLAND e HALLAND (2007) e SPOOL, PERFETTI e BRITTAN (2004) IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
50. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 44 Questões em aberto no processo CSCOS
51. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 45 Questões em aberto no processo CSCOS
52. VI – Conclusões 46 IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
53. 47 Conclusões Comprovação da possibilidade de se associar um contexto, obtido através de uma base de conhecimento de senso comum, a cada item de conteúdo do site estudado. Comprovação da viabilidade de se obter um esquema de organização com base na similaridade de contexto de senso comum dos itens de conteúdo da coleção (CSCOS – CommonSenseContextOrganizationScheme). Coerência nos agrupamentos propostos conforme o CSCOS (na lógica do processo e avaliações qualitativas deste autor). Tempo de processamento relativamente pequeno. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
54. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 48 Conclusões
55. 49 Adequação ao uso do conhecimento de Senso Comum em projetos de Arquitetura da Informação Nem todo tipo de conhecimento pode ser considerado como sendo de senso comum. Pode não adequado a projetos com conteúdo técnico-científicos ou público-alvo especializado (pessoas vs usuários). Senso comum... de uma comunidade específica? IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
56. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 50 Trabalhos futuros Uso da base de conhecimento de Senso Comum para identificação automática de contexto de forma facetada, possibilitando uma classificação facetada, ou um sistema de busca com base nessas facetas.
57. 51 Trabalhos futuros Uso de sintagmas nominais dos textos nas pesquisas na ConceptNetBr: maior precisão na recuperação do contexto. Exemplo: “posto de gasolina” IHC 2008 - VIII Simpósio Brasileiro de Fatores Humanos em Sistemas Computacionais Porto Alegre - RS - Outubro de 2008 Workshop de Aspectos da Interação Humano-Computador na Web Social Artigo: Uso de uma Base de Conhecimento de Senso Comum em Projetos de Arquitetura da Informação de WebSites IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo
58. IPT - Instituto de Pesquisas Tecnológicas do Estado de São Paulo 52 Questões?