Comment un moteur détermine
la pertinence d’une page?
Le cosinus de Salton
ou
modèle vectoriel.

Synthèse d’articles par L...
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une
requête -> modèle vectoriel
• Classement des pages =...
• Le modèle vectoriel initié par Gérard Salton
(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information...
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents
(recherche d ’information)
• En fonc...
L’idée ?
• Représenter, dans le même espace
vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimé...
• Plus l’angle entre les vecteurs document et requête
est petit (cosinus élevé) plus le document est
pertinent par rapport...
N dimension

• En réalité, il y a autant que dimension que de
termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…
Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivière
Texte 2 : la loutre est avec les loutres ...
Itératif
•
•
•
•
•

On rédige un texte.
On le soumet à Google.
On mesure le positionnement. (un bon outil SEO Soft)
On amé...
Optimiser, c’est…
• Permettre de trouver le bon « angle de
Salton »
Prochain SlideShare
Chargement dans…5
×

Mesure de pertinence par le Cosinus de Salton

1 333 vues

Publié le

Le cosinus de Salton est un modèle vectoriel pour mesurer la pertinence des termes d'un documents face à une requête de recherche.

Publié dans : Technologie
0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
1 333
Sur SlideShare
0
Issues des intégrations
0
Intégrations
4
Actions
Partages
0
Téléchargements
13
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Mesure de pertinence par le Cosinus de Salton

  1. 1. Comment un moteur détermine la pertinence d’une page? Le cosinus de Salton ou modèle vectoriel. Synthèse d’articles par Laurent Hermann || citinet.fr 2014
  2. 2. Moteur = 2 tâches distinctes • Analyse pertinence = par rapport à une requête -> modèle vectoriel • Classement des pages = Page Rank
  3. 3. • Le modèle vectoriel initié par Gérard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) • Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte. • De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
  4. 4. Quoi ? • Comment classer des documents (indexation) • Comment retrouver des documents (recherche d ’information) • En fonction des mots qu’ils contiennent • Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
  5. 5. L’idée ? • Représenter, dans le même espace vectoriel, les requêtes et les documents. • Documents et requêtes sont exprimés comme des vecteurs de termes. • Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
  6. 6. • Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête. • Le cosinus de Salton varie entre 0 et 1. Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
  7. 7. N dimension • En réalité, il y a autant que dimension que de termes.
  8. 8. SEO Camp’us 2009/ Philippe YONNET
  9. 9. Exemple… Prenons les textes suivants : • Texte 1 : la loutre est dans la rivière Texte 2 : la loutre est avec les loutres dans la rivière On va lemmatiser tout ça (sans prendre en compte les verbes) : • Texte 1 : loutre, rivière Texte 2 : loutre, loutre, rivière On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre). •Texte 1 : (1/2, 1/2 ) •Texte 2 : (1/3, 2/3) Ce qui donne graphiquement : Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
  10. 10. Itératif • • • • • On rédige un texte. On le soumet à Google. On mesure le positionnement. (un bon outil SEO Soft) On améliore le texte. On réitère.
  11. 11. Optimiser, c’est… • Permettre de trouver le bon « angle de Salton »

×