O documento discute indexação e busca baseada em metadados em sistemas P2P híbridos. Ele apresenta trabalhos relacionados que usam index local e global e propõe um sistema com indexação local e global distribuída, analisando três cenários com vantagens e desvantagens de cada abordagem.
1. Indexação e busca
baseada em metadados
em um sistema P2P
Híbrido
Centro de Informática
Universidade Federal de
Pernambuco
Marco André Santos Machado
masm@cin.ufpe.br
6. Trabalhos Relacionados
● Sixearch
– Composto por muito componentes:
– Crawler
– Sistema para Indexação
– Mecanismo de Recuperação
– Sistema de aprendizado baseado em
contexto
● Index local, aggregated, em clustering)
6
7. Trabalhos Relacionados
● Minerva
– Cada peer descobre e indexa seus arquivos
– Envia um conjunto de metadados baseado em
termos para um index global
– Possui um index local e global (2-steps)
7
8. Trabalhos Relacionados
● eSearch
– Indexação baseado em palavras-chave
– Possui peer divididos por palavras-chave para
armazenar o index
– Index local e global
– Local: documento X contêm os termos a, b
– Global: termos a está nos documentos X, Z
8
9. Proposta
● Indexação
– Extrair o conteúdo (Apache Tika)
– Extrair metadados
– Indexar (Lucene)
– Local
– SearchServer
● Busca
– Local
– Global
– Distribuída
9
14. Análise Comparativa
● Cenário 2
– Index global
– Vantagens
● Única indexação
● Menor qnt. de mensagens
● SearhServer ON => index completo
– Desvantagens
● Sobrecarga do SearchServer
● A busca pode NÃO retorna resultados
(SearchServer => OFF)
14
16. Análise Comparativa
● Cenário 3
– Index local / distribuído
– Vantagens
● Única indexação
● Menor qnt. de mensagens para indexar
– Desvantagens
● A busca só retorna resultados do peers
online
● Não possui um index completo
16