SlideShare une entreprise Scribd logo
1  sur  11
Comment un moteur détermine
la pertinence d’une page?
Le cosinus de Salton
ou
modèle vectoriel.

Synthèse d’articles par Laurent Hermann || citinet.fr 2014
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une
requête -> modèle vectoriel
• Classement des pages = Page Rank
• Le modèle vectoriel initié par Gérard Salton
(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)

• Les fréquences d’occurrences des termes d’un
texte donnent une bonne représentation du
contenu du texte.
• De calculer le cosinus de l'angle formé par les
vecteurs représentant le document et la
requête.
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents
(recherche d ’information)
• En fonction des mots qu’ils contiennent
• Orienter au maximum le vecteur de la page
optimisée dans le même sens que le vecteur
de la requête ciblée.
L’idée ?
• Représenter, dans le même espace
vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimés comme
des vecteurs de termes.
• Estimer l’affinité en mesurant l’angle entre 2
vecteurs (document, requête)
• Plus l’angle entre les vecteurs document et requête
est petit (cosinus élevé) plus le document est
pertinent par rapport à la requête.
• Le cosinus de Salton varie entre 0 et 1.
Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
N dimension

• En réalité, il y a autant que dimension que de
termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…
Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivière
Texte 2 : la loutre est avec les loutres dans la rivière
On va lemmatiser tout ça (sans prendre en compte les verbes) :
• Texte 1 : loutre, rivière
Texte 2 : loutre, loutre, rivière
On va ensuite représenter chacun de ces textes par
un vecteur dans l’espace des fréquences des mots
rivière, loutre (dans cet ordre).
•Texte 1 : (1/2, 1/2 )
•Texte 2 : (1/3, 2/3)
Ce qui donne graphiquement :

Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
Itératif
•
•
•
•
•

On rédige un texte.
On le soumet à Google.
On mesure le positionnement. (un bon outil SEO Soft)
On améliore le texte.
On réitère.
Optimiser, c’est…
• Permettre de trouver le bon « angle de
Salton »

Contenu connexe

Tendances

Pathologie BéNigne Du Sein
Pathologie BéNigne Du SeinPathologie BéNigne Du Sein
Pathologie BéNigne Du SeinPOPOV007
 
choix de l'instrumentation rotative
 choix  de l'instrumentation rotative choix  de l'instrumentation rotative
choix de l'instrumentation rotativeAbdeldjalil Gadra
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR Anissa ATMANI
 
Les analyses complémentaires en odf
Les analyses complémentaires en odfLes analyses complémentaires en odf
Les analyses complémentaires en odfAbdeldjalil Gadra
 

Tendances (6)

Pathologie BéNigne Du Sein
Pathologie BéNigne Du SeinPathologie BéNigne Du Sein
Pathologie BéNigne Du Sein
 
choix de l'instrumentation rotative
 choix  de l'instrumentation rotative choix  de l'instrumentation rotative
choix de l'instrumentation rotative
 
ostéochondrose
 ostéochondrose ostéochondrose
ostéochondrose
 
les processus VAR et SVAR
les processus VAR et SVAR  les processus VAR et SVAR
les processus VAR et SVAR
 
Les analyses complémentaires en odf
Les analyses complémentaires en odfLes analyses complémentaires en odf
Les analyses complémentaires en odf
 
マーク付き点過程
マーク付き点過程マーク付き点過程
マーク付き点過程
 

Mesure de pertinence par le Cosinus de Salton

  • 1. Comment un moteur détermine la pertinence d’une page? Le cosinus de Salton ou modèle vectoriel. Synthèse d’articles par Laurent Hermann || citinet.fr 2014
  • 2. Moteur = 2 tâches distinctes • Analyse pertinence = par rapport à une requête -> modèle vectoriel • Classement des pages = Page Rank
  • 3. • Le modèle vectoriel initié par Gérard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) • Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte. • De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
  • 4. Quoi ? • Comment classer des documents (indexation) • Comment retrouver des documents (recherche d ’information) • En fonction des mots qu’ils contiennent • Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
  • 5. L’idée ? • Représenter, dans le même espace vectoriel, les requêtes et les documents. • Documents et requêtes sont exprimés comme des vecteurs de termes. • Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
  • 6. • Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête. • Le cosinus de Salton varie entre 0 et 1. Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
  • 7. N dimension • En réalité, il y a autant que dimension que de termes.
  • 8. SEO Camp’us 2009/ Philippe YONNET
  • 9. Exemple… Prenons les textes suivants : • Texte 1 : la loutre est dans la rivière Texte 2 : la loutre est avec les loutres dans la rivière On va lemmatiser tout ça (sans prendre en compte les verbes) : • Texte 1 : loutre, rivière Texte 2 : loutre, loutre, rivière On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre). •Texte 1 : (1/2, 1/2 ) •Texte 2 : (1/3, 2/3) Ce qui donne graphiquement : Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
  • 10. Itératif • • • • • On rédige un texte. On le soumet à Google. On mesure le positionnement. (un bon outil SEO Soft) On améliore le texte. On réitère.
  • 11. Optimiser, c’est… • Permettre de trouver le bon « angle de Salton »