SlideShare une entreprise Scribd logo
Comment un moteur détermine
la pertinence d’une page?
Le cosinus de Salton
ou
modèle vectoriel.

Synthèse d’articles par Laurent Hermann || citinet.fr 2014
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une
requête -> modèle vectoriel
• Classement des pages = Page Rank
• Le modèle vectoriel initié par Gérard Salton
(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval)

• Les fréquences d’occurrences des termes d’un
texte donnent une bonne représentation du
contenu du texte.
• De calculer le cosinus de l'angle formé par les
vecteurs représentant le document et la
requête.
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents
(recherche d ’information)
• En fonction des mots qu’ils contiennent
• Orienter au maximum le vecteur de la page
optimisée dans le même sens que le vecteur
de la requête ciblée.
L’idée ?
• Représenter, dans le même espace
vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimés comme
des vecteurs de termes.
• Estimer l’affinité en mesurant l’angle entre 2
vecteurs (document, requête)
• Plus l’angle entre les vecteurs document et requête
est petit (cosinus élevé) plus le document est
pertinent par rapport à la requête.
• Le cosinus de Salton varie entre 0 et 1.
Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
N dimension

• En réalité, il y a autant que dimension que de
termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…
Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivière
Texte 2 : la loutre est avec les loutres dans la rivière
On va lemmatiser tout ça (sans prendre en compte les verbes) :
• Texte 1 : loutre, rivière
Texte 2 : loutre, loutre, rivière
On va ensuite représenter chacun de ces textes par
un vecteur dans l’espace des fréquences des mots
rivière, loutre (dans cet ordre).
•Texte 1 : (1/2, 1/2 )
•Texte 2 : (1/3, 2/3)
Ce qui donne graphiquement :

Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
Itératif
•
•
•
•
•

On rédige un texte.
On le soumet à Google.
On mesure le positionnement. (un bon outil SEO Soft)
On améliore le texte.
On réitère.
Optimiser, c’est…
• Permettre de trouver le bon « angle de
Salton »

Contenu connexe

Tendances

PRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUX
PRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUXPRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUX
PRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUX
laurentlamothe
 
Chapitre 4 récursivité
Chapitre 4 récursivitéChapitre 4 récursivité
Chapitre 4 récursivité
Sana Aroussi
 
Algorithme & structures de données Chap II
Algorithme & structures de données Chap IIAlgorithme & structures de données Chap II
Algorithme & structures de données Chap II
Ines Ouaz
 
Exercices sur-python-turtle-corrige
Exercices sur-python-turtle-corrigeExercices sur-python-turtle-corrige
Exercices sur-python-turtle-corrige
WajihBaghdadi1
 
Indeedなう A日程 解説
Indeedなう A日程 解説Indeedなう A日程 解説
Indeedなう A日程 解説
AtCoder Inc.
 
Numérique et éducation (décembre 2014)
Numérique et éducation (décembre 2014)Numérique et éducation (décembre 2014)
Numérique et éducation (décembre 2014)
Elie ALLOUCHE
 
Comment réussir son entretien d'embauche
Comment réussir son entretien d'embaucheComment réussir son entretien d'embauche
Comment réussir son entretien d'embauche
GlwadysManga
 
Prevision de la demande
Prevision de la demandePrevision de la demande
Prevision de la demande
أمين سيد
 
Cours Recherche opérationnelle (les files d'attentes)
Cours Recherche opérationnelle (les files d'attentes)Cours Recherche opérationnelle (les files d'attentes)
Cours Recherche opérationnelle (les files d'attentes)
Aboubakr Moubarak
 
Cours3.pptx
Cours3.pptxCours3.pptx
Cours3.pptx
FarahHkiri
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
Jaouad Dabounou
 
L’entretient d’embauche
L’entretient d’embaucheL’entretient d’embauche
L’entretient d’embauche
Mohamed El-malki
 
Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...
Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...
Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...
PMI-Montréal
 
Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?
Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?
Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?
Apec
 
PHASE 1 BILAN PERSONNEL ET PROFESSIONNEL
PHASE 1 BILAN PERSONNEL ET PROFESSIONNELPHASE 1 BILAN PERSONNEL ET PROFESSIONNEL
PHASE 1 BILAN PERSONNEL ET PROFESSIONNEL
Donkichotte
 
Réussir l'entretien d'embauche: les règles d'or
Réussir l'entretien d'embauche: les règles d'orRéussir l'entretien d'embauche: les règles d'or
Réussir l'entretien d'embauche: les règles d'or
ANAPEC
 
Preparer son entretien
Preparer son entretienPreparer son entretien
Preparer son entretien
Coraia
 
Le processus de recrutement au sein de l’entreprise ppt
Le processus de recrutement au sein de l’entreprise pptLe processus de recrutement au sein de l’entreprise ppt
Le processus de recrutement au sein de l’entreprise pptBANDJO Chabrel
 
Cours BDD.pptx
Cours BDD.pptxCours BDD.pptx
Cours BDD.pptx
IbrahimaBarry49
 

Tendances (20)

PRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUX
PRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUXPRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUX
PRESENTATION DE L’ETAT D’AVANCEMENT DES TRAVAUX GOUVERNEMENTAUX
 
Chapitre 4 récursivité
Chapitre 4 récursivitéChapitre 4 récursivité
Chapitre 4 récursivité
 
Algorithme & structures de données Chap II
Algorithme & structures de données Chap IIAlgorithme & structures de données Chap II
Algorithme & structures de données Chap II
 
Exercices sur-python-turtle-corrige
Exercices sur-python-turtle-corrigeExercices sur-python-turtle-corrige
Exercices sur-python-turtle-corrige
 
Indeedなう A日程 解説
Indeedなう A日程 解説Indeedなう A日程 解説
Indeedなう A日程 解説
 
Numérique et éducation (décembre 2014)
Numérique et éducation (décembre 2014)Numérique et éducation (décembre 2014)
Numérique et éducation (décembre 2014)
 
Comment réussir son entretien d'embauche
Comment réussir son entretien d'embaucheComment réussir son entretien d'embauche
Comment réussir son entretien d'embauche
 
Prevision de la demande
Prevision de la demandePrevision de la demande
Prevision de la demande
 
Methodologie des enquete
Methodologie des enqueteMethodologie des enquete
Methodologie des enquete
 
Cours Recherche opérationnelle (les files d'attentes)
Cours Recherche opérationnelle (les files d'attentes)Cours Recherche opérationnelle (les files d'attentes)
Cours Recherche opérationnelle (les files d'attentes)
 
Cours3.pptx
Cours3.pptxCours3.pptx
Cours3.pptx
 
Réseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTMRéseaux de neurones récurrents et LSTM
Réseaux de neurones récurrents et LSTM
 
L’entretient d’embauche
L’entretient d’embaucheL’entretient d’embauche
L’entretient d’embauche
 
Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...
Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...
Le Design Thinking : Penser et agir autrement pour trouver des solutions diff...
 
Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?
Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?
Apec - Mobilité professionnelle des cadres : quels enjeux pour les entreprises ?
 
PHASE 1 BILAN PERSONNEL ET PROFESSIONNEL
PHASE 1 BILAN PERSONNEL ET PROFESSIONNELPHASE 1 BILAN PERSONNEL ET PROFESSIONNEL
PHASE 1 BILAN PERSONNEL ET PROFESSIONNEL
 
Réussir l'entretien d'embauche: les règles d'or
Réussir l'entretien d'embauche: les règles d'orRéussir l'entretien d'embauche: les règles d'or
Réussir l'entretien d'embauche: les règles d'or
 
Preparer son entretien
Preparer son entretienPreparer son entretien
Preparer son entretien
 
Le processus de recrutement au sein de l’entreprise ppt
Le processus de recrutement au sein de l’entreprise pptLe processus de recrutement au sein de l’entreprise ppt
Le processus de recrutement au sein de l’entreprise ppt
 
Cours BDD.pptx
Cours BDD.pptxCours BDD.pptx
Cours BDD.pptx
 

Dernier

PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptxPRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
AlbertSmithTambwe
 
Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
abderrahimbourimi
 
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
OCTO Technology
 
COURS D'ADMINISTRATION RESEAU SOUS WINDOWS
COURS D'ADMINISTRATION RESEAU  SOUS WINDOWSCOURS D'ADMINISTRATION RESEAU  SOUS WINDOWS
COURS D'ADMINISTRATION RESEAU SOUS WINDOWS
AlbertSmithTambwe
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
OCTO Technology
 
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Laurent Speyser
 
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdfOCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO Technology
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
UNITECBordeaux
 
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
Université de Franche-Comté
 

Dernier (9)

PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptxPRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
PRESENTATION DE L'ACTIVE DIRECTORY SOUS WINDOWS SERVEUR.pptx
 
Les écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptxLes écrans informatiques au fil du temps.pptx
Les écrans informatiques au fil du temps.pptx
 
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
Le Comptoir OCTO - Équipes infra et prod, ne ratez pas l'embarquement pour l'...
 
COURS D'ADMINISTRATION RESEAU SOUS WINDOWS
COURS D'ADMINISTRATION RESEAU  SOUS WINDOWSCOURS D'ADMINISTRATION RESEAU  SOUS WINDOWS
COURS D'ADMINISTRATION RESEAU SOUS WINDOWS
 
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
Le Comptoir OCTO - Qu’apporte l’analyse de cycle de vie lors d’un audit d’éco...
 
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
Ouvrez la porte ou prenez un mur (Agile Tour Genève 2024)
 
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdfOCTO TALKS : 4 Tech Trends du Software Engineering.pdf
OCTO TALKS : 4 Tech Trends du Software Engineering.pdf
 
Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024Le support de présentation des Signaux 2024
Le support de présentation des Signaux 2024
 
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'universitéDe l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
De l'IA comme plagiat à la rédaction d'une « charte IA » à l'université
 

Mesure de pertinence par le Cosinus de Salton

  • 1. Comment un moteur détermine la pertinence d’une page? Le cosinus de Salton ou modèle vectoriel. Synthèse d’articles par Laurent Hermann || citinet.fr 2014
  • 2. Moteur = 2 tâches distinctes • Analyse pertinence = par rapport à une requête -> modèle vectoriel • Classement des pages = Page Rank
  • 3. • Le modèle vectoriel initié par Gérard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) • Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte. • De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
  • 4. Quoi ? • Comment classer des documents (indexation) • Comment retrouver des documents (recherche d ’information) • En fonction des mots qu’ils contiennent • Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
  • 5. L’idée ? • Représenter, dans le même espace vectoriel, les requêtes et les documents. • Documents et requêtes sont exprimés comme des vecteurs de termes. • Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
  • 6. • Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête. • Le cosinus de Salton varie entre 0 et 1. Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
  • 7. N dimension • En réalité, il y a autant que dimension que de termes.
  • 8. SEO Camp’us 2009/ Philippe YONNET
  • 9. Exemple… Prenons les textes suivants : • Texte 1 : la loutre est dans la rivière Texte 2 : la loutre est avec les loutres dans la rivière On va lemmatiser tout ça (sans prendre en compte les verbes) : • Texte 1 : loutre, rivière Texte 2 : loutre, loutre, rivière On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre). •Texte 1 : (1/2, 1/2 ) •Texte 2 : (1/3, 2/3) Ce qui donne graphiquement : Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
  • 10. Itératif • • • • • On rédige un texte. On le soumet à Google. On mesure le positionnement. (un bon outil SEO Soft) On améliore le texte. On réitère.
  • 11. Optimiser, c’est… • Permettre de trouver le bon « angle de Salton »