1. Ordenação e Recuperação de Dados
Aula 13:
Recuperação da Informação e Busca na Web
Alexandre Duarte
alexandre@di.ufpb.br
1 1
2. Breve contextualização histórica
Motores de busca baseados em palavras-
chave 1995-1997
Altavista, Excite, Infoseek, Inktomi, Lycos
Classificação paga : Goto (transformou-se em
Overture.com → Yahoo!)
A sua classificação nos resultados de busca
dependia de quanto você pagava
Leilão de palavras-chave: casino era muito cara!
2
3. Breve contextualização histórica
1998+: Classificação baseada em links é criada pela Google
Destruiu todos os outros motores de busca com exceção do Inktomi
Aumento da satisfação do usuário
Enquanto isso, o faturamento anual da Goto/Overture está perto de
U$1 bilhão
Resultado : Google adiciona anúncios pagos, de forma
independente dos resultados das buscas
Yahoo segue, comprando a Overture (para anúncios pagos) e Inktomi
(para busca)
2005+: Google aumenta sua parcela no mercado de busca,
dominando a Europa e ganhando força na América do Norte
2009: Yahoo! e Microsoft propõem um modelo combinado de busca
paga
3
5. Básico de busca na web
Usuário
Sponsored Links
CG Appliance Express
Discount Appliances (650) 756-3931
Same Day Certified Installation
www.cgappliance.com
San Francisco-Oakland-San Jose,
CA
Miele Vacuum Cleaners
Miele Vacuums- Complete Selection
Free Shipping!
www.vacuums.com
Miele Vacuum Cleaners
Miele-Free Air shipping!
All models. Helpful advice.
www.best-vacuum.com
Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)
Miele, Inc -- Anything else is a compromise
At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
www.miele.com/ - 20k - Cached - Similar pages
Web spider Miele
Welcome to Miele, the home of the very best appliances and kitchens in the world.
www.miele.co.uk/ - 3k - Cached - Similar pages
Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this
page ]
Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
www.miele.de/ - 10k - Cached - Similar pages
Herzlich willkommen bei Miele Österreich - [ Translate this page ]
Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
www.miele.at/ - 3k - Cached - Similar pages
Buscar
Indexador
Web
Índices Índice de propagandas
5
6. Necessidades do usuário
Necessidade
Informacional – deseja aprender algo (~40% / 65%)
Baixa hemoglobina
Navigacional – deseja ir a uma página (~25% / 15%)
United Airlines
Transacional – desejar fazer algo (através da web) (~35% / 20%)
Acessar um serviço Tempo na Serra Gaúcha
Downloads Imagens da Lua
Compras Canon S410
6
7. Quantos resultados são analisados pelos
usuários?
(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
7
8. Avaliação empírica dos resultados
(usuários)
Qualidade das páginas varia bastante
Relevância não é suficiente
Outras qualidades desejadas (não RI!!)
Conteúdo: Confiabilidade, diversidade, não-duplicidade
Legibilidade: Mostrar os documentos de forma rápida e correta
Sem aborrecimentos: pop-ups, etc.
Precisão vs. recall
Na Web, recall geralmente não importa
O que importa
Precisão na posição 1? Precisão antes da quebra de página?
Extensão – precisa ser capaz de lidar com pesquisas obscuras
Recall importa quando o número de resultados é muito pequeno
A percepção dos usuários pode não ser científica mas é
bastante significativa
8
9. Avaliação empírica dos motores de busca
(usuários)
Relevância e validade dos resultados
UI – simples, sem desordem, tolerante a erros
Confiança – Resultados são objetivos
Oferta de ferramentas de Pré/Pós processamento
Mitigar erros do usuário (correção ortográfica, assistente de busca,…)
Explícito: Busca dentro dos resultados, mais como esses, refinar ...
Antecipativo: consultas relacionadas
Lida com idiossincrasias
Vocabulário específico da web
Endereços web digitados na caixa de busca
9
11. A coleção de documentos da Web
Sem projeto/coordenação
Criação distribuída de conteúdo, ligações,
democratização da publicação
Conteúdo inclui verdades, mentiras,
informação obsoleta, contradições …
Documentos não-estruturados (text, html,
…), semiestruturados (XML, fotos
anotadas), estruturado (bases de dados)…
Escala muito maior que qualquer outra
coleção de texto
Crescimento – desacelerou em relação ao
boom inicial de “duplicar o volume a cada
Web poucos meses” mas continua se expandido
Conteúdo pode ser gerado dinamicamente
11
13. O problema com os anúncios pagos …
Custam dinheiro! Qual seria a alternativa?
Otimização de Motores de Busca:
“Refinar” suas páginas para que elas sejam melhor classificadas
nos resultados de buscas para determinadas palavras-chave
Alternativa a pagar por classificação
Portanto, é intrinsicamente uma atividade de marketing
Realizado por empresas, webmasters e consultores
(“Search engine optimizers”) para seus clientes
Alguns perfeitamente legítimos, outros um tanto
nebulosos
13
14. Otimização de motores de busca (SPAM)
Razões
Comercial, política, religiosa, lobby
Operadores
Prestadores de serviço (Search Engine Optimizers)
Webmasters
Serviços de hospedagem
Fóruns
Web master world ( www.webmasterworld.com )
SEO News (http://www.seonews.com/)
14
20. Search Bombing
As primeiras gerações de motores de busca dependiam
fortemente do tf/idf
As páginas mais bem classificadas para a consulta resort porto de
galinhas eram as que continham a maior quantidade de
ocorrências de cada palavra
SEOs contra-atacaram com densas repetições de termos
e.g., porto de galinhas resort porto de galinhas
resort porto de galinhas resort
Muitas vezes as repetições apareciam na mesma cor que o
background da página
Termos repetidos influenciavam a indexação
Mas são invisíveis para os usuários
Densidade de palavras não
pode ser confiável em
sistemas de busca na web 20
21. Variações da repetição de palavras-
chave
Meta-dados enganosos, repetitivos e excessivos
Texto escondido com cores, folhas de estilo, etc
Meta-dados =
“… London hotels, hotel, holiday inn, hilton, discount,
booking, reservation, sex, mp3, britney spears, viagra, …”
21
22. Cloaking
O servidor forja o conteúdo da página para um
motor de busca
SPAM
Y
Is this a Search
Engine spider?
N Real
Cloaking Doc
22
23. Mais técnicas de SPAM
Páginas de entrada
Páginas otimizadas para uma única palavra-chave que
redirecionam para a página real
Link spamming
Sociedades de admiração mútua, links escondidos
Domain flooding: numerosos domínios apontando para
uma única página
23
24. A guerra contra o SPAM
Sinais de qualidade – dar Reconhecimento de SPAM
preferência a páginas com aprendizagem de
baseado nos: máquina
Votos de autores (links) Conjunto de treinamento
baseado em spam conhecido
Votos de usuários (sinais de uso)
Policiamento da submissão
de URL
Teste anti-robô
Limite de palavras chave em
meta-dados
Análise robusta de links
Ignorar encadeamentos
estatísticamente não-plausíveis
Usar análise de links para
detectar spammers (culpa por
associação) 24
26. Qual o tamanho da Web?
Problemas
A web é realmente infinita
Conteúdo dinâmico, ex., calendários
Soft 404: www.yahoo.com/<anything> é uma página válida
Web estática possui duplicação sintática, principalmente
por conta do espelhamento (~30%)
Alguns servidores estão raramente disponíveis
Quem se importa?
Projetista do motor de busca
Política de spidering. Impacto no recall.
26
27. O que podemos tentar medir?
Os tamanhos relativos dos motores de busca
A noção de uma página sendo indexada ainda é
razoavelmente bem definida.
Mas tem alguns problemas
Extensão do documento: ex., motores indexam páginas ainda não
recuperadas indexando o texto descritivo dos links para as páginas
(texto âncora).
Restrições nos Documentos: Todos os motores restringem o que
pode ser indexado (primeiras n palavras, apenas palavras
relevantes, etc.)
27
28. Nova definição?
A web estaticamente indexável é o que os
motores de busca conseguem indexar.
QI é o que os testes de QI conseguem medir.
Motores diferentes têm preferências diferentes
Motores diferentes indexam coisas diferentes sob a
mesma URL:
frames, meta-keywords, restrições de documentos, extensões de
documentos, ...
28
29. Tamanho relativo pela interseção
Dados dois motores de busca A e B
URLs escolhidas aleatoriamente de A
Checar se estão em B e vice versa
A∩ B
A∩ B = (1/2) * Tamanho A
A∩ B = (1/6) * Tamanho B
(1/2)*Tamanho A = (1/6)*Tamanho B
∴ Tamanho A / Tamanho B =
(1/6)/(1/2) = 1/3
29
31. Documentos duplicados
A web está cheia de conteúdo duplicado
Detecção estrita de duplicadas = casamento
perfeito
Não tão comum
Mas há muitos, muitos casos de quase-duplicatas
Ex., a última data de modificação é a única
diferença entre duas copias de uma página
31
32. Detecção de Duplicatas/Quase-duplicatas
Duplicação: Pode ser detectada com assinaturas
Quase-duplicação: Casamento aproximado
Visão geral
Computar a similaridade sintática utilizando alguma
medida de distância de edição
Usar um limiar de similaridade para detectar quase-
duplicatas
Ex., Similaridade > 80% => Documentos são quase-duplicatas
32
33. Similaridade dos conjuntos Ci , Cj
Ci C j
Jaccard(Ci , C j ) =
Ci C j
Ver conjuntos como colunas em uma matriz A; uma
linha para cada elemento no universo. aij = 1 indica a
presença do item i no conjunto j
Exemplo C1 C2
0 1
1 0
1 1 Jaccard(C 1 ,C 2 ) = 2/5 = 0.4
0 0
1 1 33
34. Observação Chave
Das colunas de Ci, Cj, podemos quatro tipos de linha
Ci Cj
A 1 1
B 1 0
C 0 1
D 0 0
Sobrecarga de Notação : A = # de linhas do tipo A
Portanto
A
Jaccard(Ci , C j ) =
A+B+C
34