SlideShare une entreprise Scribd logo
1  sur  34
Ordenação e Recuperação de Dados

                    Aula 13:
   Recuperação da Informação e Busca na Web
               Alexandre Duarte
             alexandre@di.ufpb.br


                                   1          1
Breve contextualização histórica
 Motores de busca baseados em palavras-
  chave 1995-1997
   Altavista, Excite, Infoseek, Inktomi, Lycos
 Classificação paga : Goto (transformou-se em
  Overture.com → Yahoo!)
   A sua classificação nos resultados de busca
    dependia de quanto você pagava
   Leilão de palavras-chave: casino era muito cara!


                                                       2
Breve contextualização histórica
 1998+: Classificação baseada em links é criada pela Google
    Destruiu todos os outros motores de busca com exceção do Inktomi
    Aumento da satisfação do usuário
    Enquanto isso, o faturamento anual da Goto/Overture está perto de
     U$1 bilhão
 Resultado : Google adiciona anúncios pagos, de forma
  independente dos resultados das buscas
    Yahoo segue, comprando a Overture (para anúncios pagos) e Inktomi
     (para busca)
 2005+: Google aumenta sua parcela no mercado de busca,
  dominando a Europa e ganhando força na América do Norte
    2009: Yahoo! e Microsoft propõem um modelo combinado de busca
     paga
                                                                         3
Anúncios




Resultados
             4
Básico de busca na web
                               Usuário
                                                                                                        Sponsored Links

                                                                                              CG Appliance Express
                                                                                              Discount Appliances (650) 756-3931
                                                                                              Same Day Certified Installation
                                                                                              www.cgappliance.com
                                                                                              San Francisco-Oakland-San Jose,
                                                                                              CA

                                                                                              Miele Vacuum Cleaners
                                                                                              Miele Vacuums- Complete Selection
                                                                                              Free Shipping!
                                                                                              www.vacuums.com

                                                                                              Miele Vacuum Cleaners
                                                                                              Miele-Free Air shipping!
                                                                                              All models. Helpful advice.
                                                                                              www.best-vacuum.com




                                   Web                                  Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

                                   Miele, Inc -- Anything else is a compromise
                                   At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
                                   Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
                                   www.miele.com/ - 20k - Cached - Similar pages




             Web spider            Miele
                                   Welcome to Miele, the home of the very best appliances and kitchens in the world.
                                   www.miele.co.uk/ - 3k - Cached - Similar pages

                                   Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this
                                   page ]
                                   Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
                                   ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
                                   www.miele.de/ - 10k - Cached - Similar pages

                                   Herzlich willkommen bei Miele Österreich - [ Translate this page ]
                                   Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
                                   weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
                                   www.miele.at/ - 3k - Cached - Similar pages




                                                                                          Buscar

            Indexador


   Web


                    Índices   Índice de propagandas
                                               5
Necessidades do usuário
 Necessidade
    Informacional – deseja aprender algo (~40% / 65%)
                                               Baixa hemoglobina
    Navigacional – deseja ir a uma página (~25% / 15%)
                                               United Airlines
    Transacional – desejar fazer algo (através da web) (~35% / 20%)
        Acessar um serviço       Tempo na Serra Gaúcha
        Downloads                   Imagens da Lua
        Compras                         Canon S410




                                                                       6
Quantos resultados são analisados pelos
 usuários?




(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
                                                                       7
Avaliação empírica dos resultados
(usuários)
 Qualidade das páginas varia bastante
    Relevância não é suficiente
    Outras qualidades desejadas (não RI!!)
        Conteúdo: Confiabilidade, diversidade, não-duplicidade
        Legibilidade: Mostrar os documentos de forma rápida e correta
        Sem aborrecimentos: pop-ups, etc.
 Precisão vs. recall
    Na Web, recall geralmente não importa
 O que importa
    Precisão na posição 1? Precisão antes da quebra de página?
    Extensão – precisa ser capaz de lidar com pesquisas obscuras
        Recall importa quando o número de resultados é muito pequeno
 A percepção dos usuários pode não ser científica mas é
  bastante significativa

                                                                         8
Avaliação empírica dos motores de busca
(usuários)
   Relevância e validade dos resultados
   UI – simples, sem desordem, tolerante a erros
   Confiança – Resultados são objetivos
   Oferta de ferramentas de Pré/Pós processamento
     Mitigar erros do usuário (correção ortográfica, assistente de busca,…)
     Explícito: Busca dentro dos resultados, mais como esses, refinar ...
     Antecipativo: consultas relacionadas
 Lida com idiossincrasias
     Vocabulário específico da web
     Endereços web digitados na caixa de busca




                                                                               9
10
A coleção de documentos da Web
           Sem projeto/coordenação
           Criação distribuída de conteúdo, ligações,
            democratização da publicação
           Conteúdo inclui verdades, mentiras,
            informação obsoleta, contradições …
           Documentos não-estruturados (text, html,
            …), semiestruturados (XML, fotos
            anotadas), estruturado (bases de dados)…
           Escala muito maior que qualquer outra
            coleção de texto
           Crescimento – desacelerou em relação ao
            boom inicial de “duplicar o volume a cada
  Web       poucos meses” mas continua se expandido
           Conteúdo pode ser gerado dinamicamente
                                                   11
SPAM
(Otimização de Motores de Busca)


                                   12
O problema com os anúncios pagos …
 Custam dinheiro! Qual seria a alternativa?
 Otimização de Motores de Busca:
    “Refinar” suas páginas para que elas sejam melhor classificadas
     nos resultados de buscas para determinadas palavras-chave
    Alternativa a pagar por classificação
    Portanto, é intrinsicamente uma atividade de marketing
 Realizado por empresas, webmasters e consultores
  (“Search engine optimizers”) para seus clientes
 Alguns perfeitamente legítimos, outros um tanto
  nebulosos


                                                                       13
Otimização de motores de busca (SPAM)
 Razões
    Comercial, política, religiosa, lobby
 Operadores
    Prestadores de serviço (Search Engine Optimizers)
    Webmasters
    Serviços de hospedagem
 Fóruns
    Web master world ( www.webmasterworld.com )
    SEO News (http://www.seonews.com/)




                                                         14
Search (Google) Bombing




                          15
Search (Google) Bombing




                          16
Search (Google) Bombing




                          17
Search (Google) Bombing




                          18
Search (Google) Bombing




                          19
Search Bombing
 As primeiras gerações de motores de busca dependiam
  fortemente do tf/idf
    As páginas mais bem classificadas para a consulta resort porto de
     galinhas eram as que continham a maior quantidade de
     ocorrências de cada palavra
 SEOs contra-atacaram com densas repetições de termos
    e.g., porto de galinhas resort porto de galinhas
     resort porto de galinhas resort
    Muitas vezes as repetições apareciam na mesma cor que o
     background da página
        Termos repetidos influenciavam a indexação
        Mas são invisíveis para os usuários

           Densidade de palavras não
             pode ser confiável em
           sistemas de busca na web                                      20
Variações da repetição de palavras-
chave
 Meta-dados enganosos, repetitivos e excessivos
 Texto escondido com cores, folhas de estilo, etc




     Meta-dados =
     “… London hotels, hotel, holiday inn, hilton, discount,
     booking, reservation, sex, mp3, britney spears, viagra, …”




                                                                  21
Cloaking
 O servidor forja o conteúdo da página para um
  motor de busca



                                          SPAM
                                      Y
                   Is this a Search
                   Engine spider?

                                      N   Real
               Cloaking                   Doc




                                                  22
Mais técnicas de SPAM
 Páginas de entrada
   Páginas otimizadas para uma única palavra-chave que
    redirecionam para a página real
 Link spamming
   Sociedades de admiração mútua, links escondidos
   Domain flooding: numerosos domínios apontando para
    uma única página




                                                          23
A guerra contra o SPAM
 Sinais de qualidade – dar               Reconhecimento de SPAM
  preferência a páginas                    com aprendizagem de
  baseado nos:                             máquina
    Votos de autores (links)                Conjunto de treinamento
                                              baseado em spam conhecido
    Votos de usuários (sinais de uso)
 Policiamento da submissão
  de URL
    Teste anti-robô
 Limite de palavras chave em
  meta-dados
 Análise robusta de links
    Ignorar encadeamentos
     estatísticamente não-plausíveis
    Usar análise de links para
     detectar spammers (culpa por
     associação)                                                          24
TAMANHO DA WEB


                 25
Qual o tamanho da Web?
 Problemas
   A web é realmente infinita
      Conteúdo dinâmico, ex., calendários
      Soft 404: www.yahoo.com/<anything> é uma página válida
   Web estática possui duplicação sintática, principalmente
    por conta do espelhamento (~30%)
   Alguns servidores estão raramente disponíveis
 Quem se importa?
   Projetista do motor de busca
   Política de spidering. Impacto no recall.


                                                                26
O que podemos tentar medir?
Os tamanhos relativos dos motores de busca
  A noção de uma página sendo indexada ainda é
   razoavelmente bem definida.
  Mas tem alguns problemas
    Extensão do documento: ex., motores indexam páginas ainda não
     recuperadas indexando o texto descritivo dos links para as páginas
     (texto âncora).
    Restrições nos Documentos: Todos os motores restringem o que
     pode ser indexado (primeiras n palavras, apenas palavras
     relevantes, etc.)




                                                                          27
Nova definição?
 A web estaticamente indexável é o que os
  motores de busca conseguem indexar.
   QI é o que os testes de QI conseguem medir.
 Motores diferentes têm preferências diferentes
 Motores diferentes indexam coisas diferentes sob a
  mesma URL:
   frames, meta-keywords, restrições de documentos, extensões de
    documentos, ...




                                                                    28
Tamanho relativo pela interseção
Dados dois motores de busca A e B
             URLs escolhidas aleatoriamente de A
             Checar se estão em B e vice versa


 A∩ B
              A∩ B =     (1/2) * Tamanho A
              A∩ B =     (1/6) * Tamanho B

              (1/2)*Tamanho A = (1/6)*Tamanho B
              ∴   Tamanho A / Tamanho B =
                        (1/6)/(1/2) = 1/3



                                                   29
DETECÇÃO DE DUPLICATAS


                         30
Documentos duplicados
 A web está cheia de conteúdo duplicado
 Detecção estrita de duplicadas = casamento
  perfeito
   Não tão comum
 Mas há muitos, muitos casos de quase-duplicatas
   Ex., a última data de modificação é a única
    diferença entre duas copias de uma página



                                                  31
Detecção de Duplicatas/Quase-duplicatas
 Duplicação: Pode ser detectada com assinaturas
 Quase-duplicação: Casamento aproximado
    Visão geral
       Computar a similaridade sintática utilizando alguma
        medida de distância de edição
       Usar um limiar de similaridade para detectar quase-
        duplicatas
          Ex., Similaridade > 80% => Documentos são quase-duplicatas




                                                                        32
Similaridade dos conjuntos Ci , Cj
                                       Ci  C j
                Jaccard(Ci , C j ) =
                                       Ci  C j
 Ver conjuntos como colunas em uma matriz A; uma
  linha para cada elemento no universo. aij = 1 indica a
  presença do item i no conjunto j
 Exemplo           C1 C2

                      0     1
                      1     0
                      1     1      Jaccard(C 1 ,C 2 ) = 2/5 = 0.4
                      0     0
                      1     1                                33
Observação Chave
 Das colunas de Ci, Cj, podemos quatro tipos de linha
          Ci Cj
      A   1   1
      B   1   0
      C   0   1
      D   0   0
 Sobrecarga de Notação : A = # de linhas do tipo A
 Portanto
                                    A
             Jaccard(Ci , C j ) =
                                  A+B+C
                                                         34

Contenu connexe

Similaire à Recuperação da Informação e Busca na Web

Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)
Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)
Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)Fernando Misato
 
A Miopia do CSO por Jordan Bonagura
A Miopia do CSO por Jordan BonaguraA Miopia do CSO por Jordan Bonagura
A Miopia do CSO por Jordan BonaguraSegInfo
 
Seo - Link Buiding, Conseguindo links para seu site
Seo - Link Buiding, Conseguindo links para seu siteSeo - Link Buiding, Conseguindo links para seu site
Seo - Link Buiding, Conseguindo links para seu siteDaniel Marcos
 
Startup Day - Tools for Building your Startup 2
Startup Day - Tools for Building your Startup 2Startup Day - Tools for Building your Startup 2
Startup Day - Tools for Building your Startup 2Amazon Web Services LATAM
 
Webinar-A-Thon: Amazon Personalize (Português)
Webinar-A-Thon: Amazon Personalize (Português)Webinar-A-Thon: Amazon Personalize (Português)
Webinar-A-Thon: Amazon Personalize (Português)Amazon Web Services LATAM
 
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!Renato Bongiorno Bonfanti
 
Curso de Marketing Online - Academia do Palestrante
Curso de Marketing Online - Academia do PalestranteCurso de Marketing Online - Academia do Palestrante
Curso de Marketing Online - Academia do PalestranteMarcio Okabe
 
Www.dicas l.com.br cursos-search_websearch
Www.dicas l.com.br cursos-search_websearchWww.dicas l.com.br cursos-search_websearch
Www.dicas l.com.br cursos-search_websearchicaroidos2
 
Tool Open-Source & Free for Web Analytics
Tool Open-Source & Free for Web AnalyticsTool Open-Source & Free for Web Analytics
Tool Open-Source & Free for Web AnalyticsFrancisco Gonçalves
 
1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital
1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital
1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing DigitalKampeki Marketing Digital
 
Mobile: Quem Dita as Regras é o Google
Mobile: Quem Dita as Regras é o GoogleMobile: Quem Dita as Regras é o Google
Mobile: Quem Dita as Regras é o GoogleNatascha Hun
 
Marketing de Busca
Marketing de BuscaMarketing de Busca
Marketing de BuscaMarcio Okabe
 
Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...
Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...
Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...Marcus Garcia
 

Similaire à Recuperação da Informação e Busca na Web (20)

Métricas Para a Web 2.0
Métricas Para a Web 2.0Métricas Para a Web 2.0
Métricas Para a Web 2.0
 
Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)
Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)
Vendedores grátis - Google na linguagem dos Negócios (by Fernando Misato)
 
Webinar Portal Colaborativo
Webinar Portal ColaborativoWebinar Portal Colaborativo
Webinar Portal Colaborativo
 
A Miopia do CSO por Jordan Bonagura
A Miopia do CSO por Jordan BonaguraA Miopia do CSO por Jordan Bonagura
A Miopia do CSO por Jordan Bonagura
 
Seo - Link Buiding, Conseguindo links para seu site
Seo - Link Buiding, Conseguindo links para seu siteSeo - Link Buiding, Conseguindo links para seu site
Seo - Link Buiding, Conseguindo links para seu site
 
Startup Day - Tools for Building your Startup 2
Startup Day - Tools for Building your Startup 2Startup Day - Tools for Building your Startup 2
Startup Day - Tools for Building your Startup 2
 
Internet Multimídia
Internet MultimídiaInternet Multimídia
Internet Multimídia
 
Webinar-A-Thon: Amazon Personalize (Português)
Webinar-A-Thon: Amazon Personalize (Português)Webinar-A-Thon: Amazon Personalize (Português)
Webinar-A-Thon: Amazon Personalize (Português)
 
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
Futurecom 2010 - Web Semântica - Pessoas e máquinas pensando juntas!
 
Palestra Google Cnsultcorp - 27 de Janeiro 2016
Palestra Google  Cnsultcorp - 27 de Janeiro 2016Palestra Google  Cnsultcorp - 27 de Janeiro 2016
Palestra Google Cnsultcorp - 27 de Janeiro 2016
 
Curso de Marketing Online - Academia do Palestrante
Curso de Marketing Online - Academia do PalestranteCurso de Marketing Online - Academia do Palestrante
Curso de Marketing Online - Academia do Palestrante
 
intercon2006
intercon2006intercon2006
intercon2006
 
Www.dicas l.com.br cursos-search_websearch
Www.dicas l.com.br cursos-search_websearchWww.dicas l.com.br cursos-search_websearch
Www.dicas l.com.br cursos-search_websearch
 
Tool Open-Source & Free for Web Analytics
Tool Open-Source & Free for Web AnalyticsTool Open-Source & Free for Web Analytics
Tool Open-Source & Free for Web Analytics
 
1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital
1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital
1º Encontro EAD- ESAB/SINEAD - Apresentação Kampeki Marketing Digital
 
Planejamento e Desenvolvimento de Web Sites
Planejamento e Desenvolvimento de Web SitesPlanejamento e Desenvolvimento de Web Sites
Planejamento e Desenvolvimento de Web Sites
 
Mobile: Quem Dita as Regras é o Google
Mobile: Quem Dita as Regras é o GoogleMobile: Quem Dita as Regras é o Google
Mobile: Quem Dita as Regras é o Google
 
Marketing de Busca
Marketing de BuscaMarketing de Busca
Marketing de Busca
 
Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...
Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...
Trabalhando com TFS na nuvem (Microsoft Azure). Quais vantagens de migrar o A...
 
Ecommerce20b
Ecommerce20bEcommerce20b
Ecommerce20b
 

Plus de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 

Plus de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Dernier

Slides criatividade 01042024 finalpdf Portugues.pdf
Slides criatividade 01042024 finalpdf Portugues.pdfSlides criatividade 01042024 finalpdf Portugues.pdf
Slides criatividade 01042024 finalpdf Portugues.pdfpaulafernandes540558
 
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
Geometria  5to Educacion Primaria EDU  Ccesa007.pdfGeometria  5to Educacion Primaria EDU  Ccesa007.pdf
Geometria 5to Educacion Primaria EDU Ccesa007.pdfDemetrio Ccesa Rayme
 
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxDeyvidBriel
 
Dança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira parteDança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira partecoletivoddois
 
Slides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptx
Slides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptxSlides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptx
Slides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptxLuizHenriquedeAlmeid6
 
A Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaA Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaFernanda Ledesma
 
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕESPRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕESpatriciasofiacunha18
 
Guia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfGuia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfEyshilaKelly1
 
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANOInvestimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANOMarcosViniciusLemesL
 
Bingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosBingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosAntnyoAllysson
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxBiancaNogueira42
 
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
As Viagens Missionária do Apostolo Paulo.pptx
As Viagens Missionária do Apostolo Paulo.pptxAs Viagens Missionária do Apostolo Paulo.pptx
As Viagens Missionária do Apostolo Paulo.pptxAlexandreFrana33
 
19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileirosMary Alvarenga
 
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfDIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfIedaGoethe
 
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveaulasgege
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
HABILIDADES ESSENCIAIS - MATEMÁTICA 4º ANO.pdf
HABILIDADES ESSENCIAIS  - MATEMÁTICA 4º ANO.pdfHABILIDADES ESSENCIAIS  - MATEMÁTICA 4º ANO.pdf
HABILIDADES ESSENCIAIS - MATEMÁTICA 4º ANO.pdfdio7ff
 
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 anoAdelmaTorres2
 

Dernier (20)

Slides criatividade 01042024 finalpdf Portugues.pdf
Slides criatividade 01042024 finalpdf Portugues.pdfSlides criatividade 01042024 finalpdf Portugues.pdf
Slides criatividade 01042024 finalpdf Portugues.pdf
 
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
Geometria  5to Educacion Primaria EDU  Ccesa007.pdfGeometria  5to Educacion Primaria EDU  Ccesa007.pdf
Geometria 5to Educacion Primaria EDU Ccesa007.pdf
 
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
 
Dança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira parteDança Contemporânea na arte da dança primeira parte
Dança Contemporânea na arte da dança primeira parte
 
Slides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptx
Slides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptxSlides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptx
Slides Lição 2, Central Gospel, A Volta Do Senhor Jesus , 1Tr24.pptx
 
A Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaA Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão Linguística
 
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕESPRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
PRÉ-MODERNISMO - GUERRA DE CANUDOS E OS SERTÕES
 
Guia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdfGuia completo da Previdênci a - Reforma .pdf
Guia completo da Previdênci a - Reforma .pdf
 
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANOInvestimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANO
 
Bingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosBingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteiros
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
 
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
HORA DO CONTO3_BECRE D. CARLOS I_2023_2024
 
As Viagens Missionária do Apostolo Paulo.pptx
As Viagens Missionária do Apostolo Paulo.pptxAs Viagens Missionária do Apostolo Paulo.pptx
As Viagens Missionária do Apostolo Paulo.pptx
 
19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros
 
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdfDIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
DIA DO INDIO - FLIPBOOK PARA IMPRIMIR.pdf
 
treinamento brigada incendio 2024 no.ppt
treinamento brigada incendio 2024 no.ppttreinamento brigada incendio 2024 no.ppt
treinamento brigada incendio 2024 no.ppt
 
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 
HABILIDADES ESSENCIAIS - MATEMÁTICA 4º ANO.pdf
HABILIDADES ESSENCIAIS  - MATEMÁTICA 4º ANO.pdfHABILIDADES ESSENCIAIS  - MATEMÁTICA 4º ANO.pdf
HABILIDADES ESSENCIAIS - MATEMÁTICA 4º ANO.pdf
 
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
637743470-Mapa-Mental-Portugue-s-1.pdf 4 ano
 

Recuperação da Informação e Busca na Web

  • 1. Ordenação e Recuperação de Dados Aula 13: Recuperação da Informação e Busca na Web Alexandre Duarte alexandre@di.ufpb.br 1 1
  • 2. Breve contextualização histórica  Motores de busca baseados em palavras- chave 1995-1997  Altavista, Excite, Infoseek, Inktomi, Lycos  Classificação paga : Goto (transformou-se em Overture.com → Yahoo!)  A sua classificação nos resultados de busca dependia de quanto você pagava  Leilão de palavras-chave: casino era muito cara! 2
  • 3. Breve contextualização histórica  1998+: Classificação baseada em links é criada pela Google  Destruiu todos os outros motores de busca com exceção do Inktomi  Aumento da satisfação do usuário  Enquanto isso, o faturamento anual da Goto/Overture está perto de U$1 bilhão  Resultado : Google adiciona anúncios pagos, de forma independente dos resultados das buscas  Yahoo segue, comprando a Overture (para anúncios pagos) e Inktomi (para busca)  2005+: Google aumenta sua parcela no mercado de busca, dominando a Europa e ganhando força na América do Norte  2009: Yahoo! e Microsoft propõem um modelo combinado de busca paga 3
  • 5. Básico de busca na web Usuário Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds) Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages Web spider Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages Buscar Indexador Web Índices Índice de propagandas 5
  • 6. Necessidades do usuário  Necessidade  Informacional – deseja aprender algo (~40% / 65%) Baixa hemoglobina  Navigacional – deseja ir a uma página (~25% / 15%) United Airlines  Transacional – desejar fazer algo (através da web) (~35% / 20%)  Acessar um serviço Tempo na Serra Gaúcha  Downloads Imagens da Lua  Compras Canon S410 6
  • 7. Quantos resultados são analisados pelos usuários? (Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf) 7
  • 8. Avaliação empírica dos resultados (usuários)  Qualidade das páginas varia bastante  Relevância não é suficiente  Outras qualidades desejadas (não RI!!)  Conteúdo: Confiabilidade, diversidade, não-duplicidade  Legibilidade: Mostrar os documentos de forma rápida e correta  Sem aborrecimentos: pop-ups, etc.  Precisão vs. recall  Na Web, recall geralmente não importa  O que importa  Precisão na posição 1? Precisão antes da quebra de página?  Extensão – precisa ser capaz de lidar com pesquisas obscuras  Recall importa quando o número de resultados é muito pequeno  A percepção dos usuários pode não ser científica mas é bastante significativa 8
  • 9. Avaliação empírica dos motores de busca (usuários)  Relevância e validade dos resultados  UI – simples, sem desordem, tolerante a erros  Confiança – Resultados são objetivos  Oferta de ferramentas de Pré/Pós processamento  Mitigar erros do usuário (correção ortográfica, assistente de busca,…)  Explícito: Busca dentro dos resultados, mais como esses, refinar ...  Antecipativo: consultas relacionadas  Lida com idiossincrasias  Vocabulário específico da web  Endereços web digitados na caixa de busca 9
  • 10. 10
  • 11. A coleção de documentos da Web  Sem projeto/coordenação  Criação distribuída de conteúdo, ligações, democratização da publicação  Conteúdo inclui verdades, mentiras, informação obsoleta, contradições …  Documentos não-estruturados (text, html, …), semiestruturados (XML, fotos anotadas), estruturado (bases de dados)…  Escala muito maior que qualquer outra coleção de texto  Crescimento – desacelerou em relação ao boom inicial de “duplicar o volume a cada Web poucos meses” mas continua se expandido  Conteúdo pode ser gerado dinamicamente 11
  • 13. O problema com os anúncios pagos …  Custam dinheiro! Qual seria a alternativa?  Otimização de Motores de Busca:  “Refinar” suas páginas para que elas sejam melhor classificadas nos resultados de buscas para determinadas palavras-chave  Alternativa a pagar por classificação  Portanto, é intrinsicamente uma atividade de marketing  Realizado por empresas, webmasters e consultores (“Search engine optimizers”) para seus clientes  Alguns perfeitamente legítimos, outros um tanto nebulosos 13
  • 14. Otimização de motores de busca (SPAM)  Razões  Comercial, política, religiosa, lobby  Operadores  Prestadores de serviço (Search Engine Optimizers)  Webmasters  Serviços de hospedagem  Fóruns  Web master world ( www.webmasterworld.com )  SEO News (http://www.seonews.com/) 14
  • 20. Search Bombing  As primeiras gerações de motores de busca dependiam fortemente do tf/idf  As páginas mais bem classificadas para a consulta resort porto de galinhas eram as que continham a maior quantidade de ocorrências de cada palavra  SEOs contra-atacaram com densas repetições de termos  e.g., porto de galinhas resort porto de galinhas resort porto de galinhas resort  Muitas vezes as repetições apareciam na mesma cor que o background da página  Termos repetidos influenciavam a indexação  Mas são invisíveis para os usuários Densidade de palavras não pode ser confiável em sistemas de busca na web 20
  • 21. Variações da repetição de palavras- chave  Meta-dados enganosos, repetitivos e excessivos  Texto escondido com cores, folhas de estilo, etc Meta-dados = “… London hotels, hotel, holiday inn, hilton, discount, booking, reservation, sex, mp3, britney spears, viagra, …” 21
  • 22. Cloaking  O servidor forja o conteúdo da página para um motor de busca SPAM Y Is this a Search Engine spider? N Real Cloaking Doc 22
  • 23. Mais técnicas de SPAM  Páginas de entrada  Páginas otimizadas para uma única palavra-chave que redirecionam para a página real  Link spamming  Sociedades de admiração mútua, links escondidos  Domain flooding: numerosos domínios apontando para uma única página 23
  • 24. A guerra contra o SPAM  Sinais de qualidade – dar  Reconhecimento de SPAM preferência a páginas com aprendizagem de baseado nos: máquina  Votos de autores (links)  Conjunto de treinamento baseado em spam conhecido  Votos de usuários (sinais de uso)  Policiamento da submissão de URL  Teste anti-robô  Limite de palavras chave em meta-dados  Análise robusta de links  Ignorar encadeamentos estatísticamente não-plausíveis  Usar análise de links para detectar spammers (culpa por associação) 24
  • 26. Qual o tamanho da Web?  Problemas  A web é realmente infinita  Conteúdo dinâmico, ex., calendários  Soft 404: www.yahoo.com/<anything> é uma página válida  Web estática possui duplicação sintática, principalmente por conta do espelhamento (~30%)  Alguns servidores estão raramente disponíveis  Quem se importa?  Projetista do motor de busca  Política de spidering. Impacto no recall. 26
  • 27. O que podemos tentar medir? Os tamanhos relativos dos motores de busca  A noção de uma página sendo indexada ainda é razoavelmente bem definida.  Mas tem alguns problemas  Extensão do documento: ex., motores indexam páginas ainda não recuperadas indexando o texto descritivo dos links para as páginas (texto âncora).  Restrições nos Documentos: Todos os motores restringem o que pode ser indexado (primeiras n palavras, apenas palavras relevantes, etc.) 27
  • 28. Nova definição?  A web estaticamente indexável é o que os motores de busca conseguem indexar.  QI é o que os testes de QI conseguem medir.  Motores diferentes têm preferências diferentes  Motores diferentes indexam coisas diferentes sob a mesma URL:  frames, meta-keywords, restrições de documentos, extensões de documentos, ... 28
  • 29. Tamanho relativo pela interseção Dados dois motores de busca A e B URLs escolhidas aleatoriamente de A Checar se estão em B e vice versa A∩ B A∩ B = (1/2) * Tamanho A A∩ B = (1/6) * Tamanho B (1/2)*Tamanho A = (1/6)*Tamanho B ∴ Tamanho A / Tamanho B = (1/6)/(1/2) = 1/3 29
  • 31. Documentos duplicados  A web está cheia de conteúdo duplicado  Detecção estrita de duplicadas = casamento perfeito  Não tão comum  Mas há muitos, muitos casos de quase-duplicatas  Ex., a última data de modificação é a única diferença entre duas copias de uma página 31
  • 32. Detecção de Duplicatas/Quase-duplicatas  Duplicação: Pode ser detectada com assinaturas  Quase-duplicação: Casamento aproximado  Visão geral  Computar a similaridade sintática utilizando alguma medida de distância de edição  Usar um limiar de similaridade para detectar quase- duplicatas  Ex., Similaridade > 80% => Documentos são quase-duplicatas 32
  • 33. Similaridade dos conjuntos Ci , Cj Ci  C j Jaccard(Ci , C j ) = Ci  C j  Ver conjuntos como colunas em uma matriz A; uma linha para cada elemento no universo. aij = 1 indica a presença do item i no conjunto j  Exemplo C1 C2 0 1 1 0 1 1 Jaccard(C 1 ,C 2 ) = 2/5 = 0.4 0 0 1 1 33
  • 34. Observação Chave  Das colunas de Ci, Cj, podemos quatro tipos de linha Ci Cj A 1 1 B 1 0 C 0 1 D 0 0  Sobrecarga de Notação : A = # de linhas do tipo A  Portanto A Jaccard(Ci , C j ) = A+B+C 34