SlideShare une entreprise Scribd logo
1  sur  21
Centro de Informática – Universidade Federal da Paraíba




              Ordenação e Recuperação de Dados
               Aula 7: Modelo de Espaço Vetorial




                Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br
                                                                       1   1
Matriz de incidências Termo-Documento
            Anthony Julius         The     Hamlet       Othello       Macbeth
            and       Caesar       Tempest                            ...
            Cleopatra
ANTHONY            1           1         0          0             0         1
BRUTUS             1           1         0          1             0         0
CAESAR             1           1         0          1             1         1
CALPURNIA          0           1         0          0             0         0
CLEOPATRA          1           0         0          0             0         0
MERCY              1           0         1          1             1         1
WORSER             1           0         1          1             1         0
...

  Cada documento é representado por um vetor binário ∈ {0, 1}|V|.


                                                                            2
Matriz de incidências Termo-Documento
            Anthony Julius      The     Hamlet       Othello       Macbeth
            and       Caesar    Tempest                            ...
            Cleopatra
ANTHONY          157       73         0          0             0         1
BRUTUS             4      157         0          2             0         0
CAESAR           232      227         0          2             1         0
CALPURNIA          0       10         0          0             0         0
CLEOPATRA         57        0         0          0             0         0
MERCY              2        0         3          8             5         8
WORSER             2        0         1          1             1         5
...

Agora cada documento é representado por um vetor de contagem
∈ N|V|.

                                                                         3
Peso da frequência de um termo em um
documento




                                       4
Peso idf

   A frequência de termo em documentos dft é definida como o
    número de documentos em que o termo t ocorre.
   Definimos o peso idf de um termo t como segue:



   idf é uma medida de quão informativo é um determinado
    termo.




                                                            5
Peso tf-idf


   O peso tf-idf de um termo é o produto de seus pesos tf e idf.




                                                                6
Binário → Contagem → Matriz de Pesos
            Anthony Julius      The     Hamlet     Othello     Macbeth
            and       Caesar    Tempest                        ...
            Cleopatra
ANTHONY          5.25    3.18        0.0     0.0         0.0       0.35
BRUTUS           1.21    6.10        0.0     1.0         0.0        0.0
CAESAR           8.59    2.54        0.0    1.51        0.25        0.0
CALPURNIA         0.0    1.54        0.0     0.0         0.0        0.0
CLEOPATRA        2.85     0.0        0.0     0.0         0.0        0.0
MERCY            1.51     0.0       1.90    0.12        5.25       0.88
WORSER           1.37     0.0       0.11    4.15        0.25       1.95
...

Cada documento é agora representado por um vetor de números
reais com os pesos tf-idf dos seus termos

                                                                     7
Documentos como vetores

   Cada documento é agora representado por um vetor ∈R|V|
    de números reais com os pesos tf-idf de cada um de seus
    termos.
   Temos então um espaço vetorial |V|-dimensional.
   Os termos são os eixos desse espaço vetorial.
   Os documentos são pontos ou vetores neste espaço.
   Dimensões muito grandes: dezenas de milhões quando se
    aplica a pesquisa na Web
   Cada vetor é muito esparso – a maioria das entradas é
    zero.

                                                              8
Consultas como vetores
   Ideia chave 1: fazer o mesmo para as consultas: representá-
    las como vetores neste espaço multi-dimensional
   Ideia chave 2: Classificar os documentos de acordo com sua
    proximidade com a consulta
       proximidade = similaridade
   Relembrando: Estamos fazendo isso porque queremos fugir
    das limitações do modelo booleano.
   Ao invés disso: queremos classificar melhor documentos
    relevantes em relação a documentos não-relevantes



                                                                  9
Como formalizamos similaridade em um
espaço vetorial?

     Primeiro corte: distância entre dois pontos
     ( distância entre os pontos extremos dos dois vetores)
     Distância Euclidiana?
     Utilizar a Distância Euclideana é uma má ideia . . .
     . . . Porque resulta em valores muito grandes para vetores
      de diferentes comprimentos.




                                                                   10
Porque distância é uma má ideia




A Distância Euclidiana entre a consulta li e o documento   é muito
grande apesar de ambos terem uma distribuição similar de termos


                                                                     11
Usar o ângulo ao invés da distância

   Classificar os documentos de acordo com o seu ângulo em
    relação à consulta
   Experimento: escolha um documento d e duplique seu
    conteúdo. Chame esse documento de d′.
   Apesar de d’ ter o dobro do tamanho de d, eles
    representam “semanticamente” o mesmo conteúdo.
   O ângulo entre os dois documentos é 0, correspondendo a
    similaridade máxima . . .
   . . . mas a distância Euclidiana entre os dois pode ser muito
    grande.
                                                                    12
De ângulos para cossenos

   As duas noções a seguir são equivalentes.
      Classificar os documentos de acordo com o ângulo entre a
       consulta e o documento em ordem crescente
      Classificar os documentos de acordo com o cosseno
       (consulta,documento) em ordem decrescente
   O cosseno é uma função decrescente de um ângulo no
    intervalo [0◦, 180◦]




                                                                  13
Cosseno




          14
Similaridade do cosseno entre consulta e
documento




     qi é o peso tf-idf do termo i da consulta.
     di é o peso tf-idf de cada termo i do documento
     | | e | | são os comprimentos dos vetores e
     Esta é a similaridade do cosseno entre     e



                                                        15
Cosseno de vetores normalizados


   Para vetores normalizados, o cosseno é equivalente ao
    produto escalar.



      (se e     foram normalizados em relação ao seu
       comprimento).




                                                            16
Ilustração da similaridade de cosseno




                                        17
Cosseno: Exemplo
                        frequencia de termos (contagem)

  O quão similar são   termo         SaS     PaP    WH
  esses romances?      AFFECTION     115      58     20
  • SaS: Sense and     JEALOUS        10       7     11
  Sensibility          GOSSIP          2       0      6
  • PaP: Pride and     WUTHERING       0       0     38
  Prejudice
  • WH: Wuthering
  Heights



                                                          18
Cosseno: Exemplo
frequencia de termos (contagem)   ponderação das frequências por log

   termo     SaS PaP WH           termo             SaS PaP       WH
   AFFECTION 115 58 20            AFFECTION        3.06 2.76      2.30
   JEALOUS    10   7 11           JEALOUS           2.0 1.85      2.04
   GOSSIP      2   0  6           GOSSIP           1.30    0      1.78
   WUTHERING   0   0 38           WUTHERING           0    0      2.58
   (Para simplificar o exemplo, não estou calculando o peso idf)




                                                                       19
Cosseno: Exemplo
ponderação das frequências por log   normalização de coseno

termo           SaS    PaP    WH     termo             SaS     PaP      WH
AFFECTION 3.06         2.76   2.30   AFFECTION       0.789    0.832   0.524
JEALOUS    2.0         1.85   2.04   JEALOUS         0.515    0.555   0.465
GOSSIP    1.30            0   1.78   GOSSIP          0.335    0.0     0.405
WUTHERING    0            0   2.58   WUTHERING          0.0   0.0     0.588
     cos(SaS,PaP) ≈
      0.789 ∗ 0.832 + 0.515 ∗ 0.555 + 0.335 ∗ 0.0 + 0.0 ∗ 0.0 ≈ 0.94.
     cos(SaS,WH) ≈ 0.79
     cos(PaP,WH) ≈ 0.69

                                                                         20
Sumário: recuperação com classificação
utilizando o modelo do espaço vetorial


   Representar a consulta como um vetor de pesos tf-idf
   Representar cada documento como um vetor de pesos tf-idf
   Calcular a similiradade do cosseno entre o vetor da consulta e
    os vetores de cada documento na coleção
   Classifique os documentos de acordo com a consulta
   Retorne os primeiros K (ex., K = 10) documentos para o
    usuário



                                                               21

Contenu connexe

Plus de Alexandre Duarte

Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Alexandre Duarte
 

Plus de Alexandre Duarte (20)

Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 
Introdução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de DadosIntrodução à Analise de Dados - aula 3 - Agregação de Dados
Introdução à Analise de Dados - aula 3 - Agregação de Dados
 
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
Introdução à Análise de Dados - Aula 02 - Tipos Básicos de Dados
 
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios Análise de Redes Sociais: Introdução aos Grafos Aleatórios
Análise de Redes Sociais: Introdução aos Grafos Aleatórios
 

Dernier

19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
marlene54545
 

Dernier (20)

Educação Financeira - Cartão de crédito665933.pptx
Educação Financeira - Cartão de crédito665933.pptxEducação Financeira - Cartão de crédito665933.pptx
Educação Financeira - Cartão de crédito665933.pptx
 
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptxMonoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
Monoteísmo, Politeísmo, Panteísmo 7 ANO2.pptx
 
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxSlides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
 
Pesquisa Ação René Barbier Livro acadêmico
Pesquisa Ação René Barbier Livro  acadêmicoPesquisa Ação René Barbier Livro  acadêmico
Pesquisa Ação René Barbier Livro acadêmico
 
Sistema de Bibliotecas UCS - Cantos do fim do século
Sistema de Bibliotecas UCS  - Cantos do fim do séculoSistema de Bibliotecas UCS  - Cantos do fim do século
Sistema de Bibliotecas UCS - Cantos do fim do século
 
aula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.pptaula de bioquímica bioquímica dos carboidratos.ppt
aula de bioquímica bioquímica dos carboidratos.ppt
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
Seminário Biologia e desenvolvimento da matrinxa.pptx
Seminário Biologia e desenvolvimento da matrinxa.pptxSeminário Biologia e desenvolvimento da matrinxa.pptx
Seminário Biologia e desenvolvimento da matrinxa.pptx
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
 
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
A Revolução Francesa. Liberdade, Igualdade e Fraternidade são os direitos que...
 
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVAEDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
EDUCAÇÃO ESPECIAL NA PERSPECTIVA INCLUSIVA
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
 
O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.O que é arte. Definição de arte. História da arte.
O que é arte. Definição de arte. História da arte.
 
6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx6ano variação linguística ensino fundamental.pptx
6ano variação linguística ensino fundamental.pptx
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
 
Conflitos entre: ISRAEL E PALESTINA.pdf
Conflitos entre:  ISRAEL E PALESTINA.pdfConflitos entre:  ISRAEL E PALESTINA.pdf
Conflitos entre: ISRAEL E PALESTINA.pdf
 

Modelo de Espaço Vetorial

  • 1. Centro de Informática – Universidade Federal da Paraíba Ordenação e Recuperação de Dados Aula 7: Modelo de Espaço Vetorial Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br 1 1
  • 2. Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 1 1 0 0 0 1 BRUTUS 1 1 0 1 0 0 CAESAR 1 1 0 1 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 ... Cada documento é representado por um vetor binário ∈ {0, 1}|V|. 2
  • 3. Matriz de incidências Termo-Documento Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 157 73 0 0 0 1 BRUTUS 4 157 0 2 0 0 CAESAR 232 227 0 2 1 0 CALPURNIA 0 10 0 0 0 0 CLEOPATRA 57 0 0 0 0 0 MERCY 2 0 3 8 5 8 WORSER 2 0 1 1 1 5 ... Agora cada documento é representado por um vetor de contagem ∈ N|V|. 3
  • 4. Peso da frequência de um termo em um documento 4
  • 5. Peso idf  A frequência de termo em documentos dft é definida como o número de documentos em que o termo t ocorre.  Definimos o peso idf de um termo t como segue:  idf é uma medida de quão informativo é um determinado termo. 5
  • 6. Peso tf-idf  O peso tf-idf de um termo é o produto de seus pesos tf e idf. 6
  • 7. Binário → Contagem → Matriz de Pesos Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest ... Cleopatra ANTHONY 5.25 3.18 0.0 0.0 0.0 0.35 BRUTUS 1.21 6.10 0.0 1.0 0.0 0.0 CAESAR 8.59 2.54 0.0 1.51 0.25 0.0 CALPURNIA 0.0 1.54 0.0 0.0 0.0 0.0 CLEOPATRA 2.85 0.0 0.0 0.0 0.0 0.0 MERCY 1.51 0.0 1.90 0.12 5.25 0.88 WORSER 1.37 0.0 0.11 4.15 0.25 1.95 ... Cada documento é agora representado por um vetor de números reais com os pesos tf-idf dos seus termos 7
  • 8. Documentos como vetores  Cada documento é agora representado por um vetor ∈R|V| de números reais com os pesos tf-idf de cada um de seus termos.  Temos então um espaço vetorial |V|-dimensional.  Os termos são os eixos desse espaço vetorial.  Os documentos são pontos ou vetores neste espaço.  Dimensões muito grandes: dezenas de milhões quando se aplica a pesquisa na Web  Cada vetor é muito esparso – a maioria das entradas é zero. 8
  • 9. Consultas como vetores  Ideia chave 1: fazer o mesmo para as consultas: representá- las como vetores neste espaço multi-dimensional  Ideia chave 2: Classificar os documentos de acordo com sua proximidade com a consulta  proximidade = similaridade  Relembrando: Estamos fazendo isso porque queremos fugir das limitações do modelo booleano.  Ao invés disso: queremos classificar melhor documentos relevantes em relação a documentos não-relevantes 9
  • 10. Como formalizamos similaridade em um espaço vetorial?  Primeiro corte: distância entre dois pontos  ( distância entre os pontos extremos dos dois vetores)  Distância Euclidiana?  Utilizar a Distância Euclideana é uma má ideia . . .  . . . Porque resulta em valores muito grandes para vetores de diferentes comprimentos. 10
  • 11. Porque distância é uma má ideia A Distância Euclidiana entre a consulta li e o documento é muito grande apesar de ambos terem uma distribuição similar de termos 11
  • 12. Usar o ângulo ao invés da distância  Classificar os documentos de acordo com o seu ângulo em relação à consulta  Experimento: escolha um documento d e duplique seu conteúdo. Chame esse documento de d′.  Apesar de d’ ter o dobro do tamanho de d, eles representam “semanticamente” o mesmo conteúdo.  O ângulo entre os dois documentos é 0, correspondendo a similaridade máxima . . .  . . . mas a distância Euclidiana entre os dois pode ser muito grande. 12
  • 13. De ângulos para cossenos  As duas noções a seguir são equivalentes.  Classificar os documentos de acordo com o ângulo entre a consulta e o documento em ordem crescente  Classificar os documentos de acordo com o cosseno (consulta,documento) em ordem decrescente  O cosseno é uma função decrescente de um ângulo no intervalo [0◦, 180◦] 13
  • 14. Cosseno 14
  • 15. Similaridade do cosseno entre consulta e documento  qi é o peso tf-idf do termo i da consulta.  di é o peso tf-idf de cada termo i do documento  | | e | | são os comprimentos dos vetores e  Esta é a similaridade do cosseno entre e 15
  • 16. Cosseno de vetores normalizados  Para vetores normalizados, o cosseno é equivalente ao produto escalar.  (se e foram normalizados em relação ao seu comprimento). 16
  • 18. Cosseno: Exemplo frequencia de termos (contagem) O quão similar são termo SaS PaP WH esses romances? AFFECTION 115 58 20 • SaS: Sense and JEALOUS 10 7 11 Sensibility GOSSIP 2 0 6 • PaP: Pride and WUTHERING 0 0 38 Prejudice • WH: Wuthering Heights 18
  • 19. Cosseno: Exemplo frequencia de termos (contagem) ponderação das frequências por log termo SaS PaP WH termo SaS PaP WH AFFECTION 115 58 20 AFFECTION 3.06 2.76 2.30 JEALOUS 10 7 11 JEALOUS 2.0 1.85 2.04 GOSSIP 2 0 6 GOSSIP 1.30 0 1.78 WUTHERING 0 0 38 WUTHERING 0 0 2.58 (Para simplificar o exemplo, não estou calculando o peso idf) 19
  • 20. Cosseno: Exemplo ponderação das frequências por log normalização de coseno termo SaS PaP WH termo SaS PaP WH AFFECTION 3.06 2.76 2.30 AFFECTION 0.789 0.832 0.524 JEALOUS 2.0 1.85 2.04 JEALOUS 0.515 0.555 0.465 GOSSIP 1.30 0 1.78 GOSSIP 0.335 0.0 0.405 WUTHERING 0 0 2.58 WUTHERING 0.0 0.0 0.588  cos(SaS,PaP) ≈ 0.789 ∗ 0.832 + 0.515 ∗ 0.555 + 0.335 ∗ 0.0 + 0.0 ∗ 0.0 ≈ 0.94.  cos(SaS,WH) ≈ 0.79  cos(PaP,WH) ≈ 0.69 20
  • 21. Sumário: recuperação com classificação utilizando o modelo do espaço vetorial  Representar a consulta como um vetor de pesos tf-idf  Representar cada documento como um vetor de pesos tf-idf  Calcular a similiradade do cosseno entre o vetor da consulta e os vetores de cada documento na coleção  Classifique os documentos de acordo com a consulta  Retorne os primeiros K (ex., K = 10) documentos para o usuário 21