1

RANKING
Présenté par : IBRAHIM Sirine
TANIOS Dany
Présenté à : Prof. CHBEIR Richard
12/27/2013
Plan
2/46



Introduction au Ranking



Les modèles de Ranking
 Vector

space model
 PageRank
 Language Model For IR
...
Ranking – Conception Globale
3/46



Lorsque l'utilisateur donne une requête, une
comparaison de mots est fait pour obten...
Pourquoi le Ranking ?
4/46



Avec le grand nombre de pages web qui existent
aujourd'hui, les moteurs de recherche prenne...
Le rôle de Ranking
5/46



Le rôle des algorithmes de classement est donc de:
sélectionnez les pages qui sont probablemen...
Moteur de recherche
6/46

Le moteur de recherche est un simple outil pour nous

12/27/2013
Le contenu réel des moteurs
7/46

12/27/2013
Les modèles de Ranking
8/46

12/27/2013
Les modèles de Ranking
9/46

12/27/2013
Vector Space Model
10/46









Vector Space Model a été largement utilisé dans le
domaine IR traditionnelle
La plup...
Vector space model
11/46

12/27/2013
Vector space model
12/46



Les poids associés aux termes sont calculés sur la base
de deux numéros:




En terme de fr...
Vector space model
13/46



TF-IDF [ Term Frequency – Inverst document Frequency ]
méthode pour calculer les poids
 wij ...
Mesure de similarité
14/46



Une mesure de similarité est une fonction qui
calcule le degré de similarité entre deux
vec...
Mesure de similarité
15/46

Similarité entre les vecteurs pour un document di et la
requête q peut être calculé comme le p...
Mesure de Similarité
16/46



Exemple:
D1 = 2T1 + 3T2 + 5T3



D2 = 3T1 + 7T2 +

1T3


=>
=>

Q = 0T1 + 0T2 + 2T3
sim(D...
Mesure de Similarité Cosinus
17/46

MSC mesure le cosinus de l'angle entre les deux vecteurs

D1 = 2T1 + 3T2 + 5T3 CosSim(...
Les modèles de Ranking
18/46

12/27/2013
PageRank
19/46









PageRank est un algorithme d'analyse des liens qui attribue
une pondération numérique à chaque...
PageRank
20/46

les PageRanks forment un indicateur d’importance pour
évaluer les pages Web
PageRank est également affiché...
PageRank
21/46



Chaque page comporte un certain nombre de
outlinks (outedges) et backlinks (inedges)
D

B

A
C

E

• B ...
PageRank
22/46



Deux cas du PageRank sont intéressants:

1) PageRank des Pages Web varient
considérablement en termes d...
PageRank
23/46

2) Backlinks provenant des pages importantes
véhiculent plus d'importance à une page.

Par exemple, si une...
PageRank
24/46



Conclusion de deux cas du PageRank:
Une page peut avoir un PageRank élevé:

si il ya beaucoup de pages ...
Exemple 2 PageRank
25/46

A

B

Nous ne connaissons pas le PR des deux pages, donc il nous faut une
valeur de départ : 1.0...
Exemple PageRank
26/46



Première itération


PR(A) = 0.15 + 0.85 * 0 = 0.15

 PR(B)


= 0.15 + 0.85 * 0.15 = 0.2775
...
Exemple PageRank
27/46



prenons une valeur 2.0 pour redémarrer notre
expérience.
 PR(A)

= 0.15 + 0.85 * 2 = 1.85
 PR...
Les modèles de Ranking
28/46

12/27/2013
Language Model For IR
29/46



L'approche du Langage Model For IR : un
document est un bon match pour une requête si
le m...
Query likelihood Model
30/46



P (d | q):
La probabilité qu'un utilisateur interrogeant
une requête q, aura le document ...
Query likelihood Model
31/46



P (q | d) : la probabilité qu'une requête Q soit
générer par un modèle de langage provena...
Query likelihood Model
32/46

12/27/2013
Query likelihood Model
33/46

Exemple
:

12/27/2013
Ranking Models
34/46

12/27/2013
Fondateur
35/46



Hypertext Induced Topic Search (HITS) ou
Hubs and Authorities est un algorithme
d’analyse de lien déve...
Concept de l’algorithme
36/46



Hits est un algorithme de recherche par
requête qui priorise les pages web en
récupérant...
HITS
37/46



Quand un utilisateur fait entrer une requête,
HITS procède comme le suivant:
 Récupère

la liste des pages...
Hubs et Authorities
38/46

A est une authority

A est une hub

• Une page web est nommée Authority si elle est pointée par...
Hubs et Authorities
39/46



Authority : des pages qui contiennent des
informations importantes ciblées pour le sujet


...
Le score d’Authority
40/46



Le score d’une page Authority est la somme des
scores de toutes les pages qui pointent vers...
Le score du Hub
41/46



Le score d’une page Hub est la somme des
scores de toutes les pages qu’elle pointe sur
Sc(A)= Sc...
Affichage
42/46



Après avoir calculer les scores des hubs et
authorities, le navigateur affiche les pages web
comme sui...
Conclusion
43/46



Les algorithmes de Ranking facilitent la vie
des utilisateurs de web en évitant que ces
derniers se p...
Références
44/46



Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de
http://homepage.divms.uiowa.edu/~asignor...
45/46

MERCI
12/27/2013
46/46

Question ?
12/27/2013
Prochain SlideShare
Chargement dans…5
×

Ranking (par IBRAHIM Sirine et TANIOS Dany)

859 vues

Publié le

0 commentaire
0 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

  • Soyez le premier à aimer ceci

Aucun téléchargement
Vues
Nombre de vues
859
Sur SlideShare
0
Issues des intégrations
0
Intégrations
1
Actions
Partages
0
Téléchargements
7
Commentaires
0
J’aime
0
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive
  • fij= frequency of term i in document jMay want to normalize term frequency (tf) by dividing by the frequency of the most common term in the document:tfij=fij/ maxi{fij}dfi = document frequency of termi= number of documents containing termiidfi = inverse document frequency of termi, = log2 (N/ dfi) (N: total number of documents)
  • D1 est 6 fois mieux que D2 utilisant cosinus similitude mais seulement 5 fois mieux utiliser le produit intérieur
  • les PageRanks forment une distribution de probabilité sur des pages Web , de sorte que la somme de toutes les pages Web \ ' PageRanks seront une PageRank est également affiché sur la barre d'outils de votre navigateur si vous avez installé la barre d'outils Google (http://toolbar.google.com/)
  • . Ce couvre à la fois le cas où une page a de nombreux backlinks et quand une page a un peu de backlinks hautement cotées.
  • . Ce couvre à la fois le cas où une page a de nombreux backlinks et quand une page a un peu de backlinks hautement cotées.
  • Nous remarquons que les valeurs augmentent à chaque itération.l’algorithme nous précisant que le PR moyen de toutes les pages du Web est égal à 1. Est-ce que nos valeurs de PR calculées ne peuvent pas augmenter indéfiniment et dépasser 1, ce qui invaliderait la formule ?Essayons avec une valeur supérieure pour voir ce qui se passe : prenons une valeur 2.0 pour redémarrer notre expérience.
  • A l’heure actuelle, Google a près de 4 milliards de pages dans sa base, ce qui pourrait nécessiter plusieurs milliards d’itérations.C’est ici que le facteur d’amortissement joue son rôle. S’il est choisi trop élevé, le calcul demandera un nombre d’itérations énorme, alors que s’il est trop bas les valeurs ne convergeront pas véritablement, mais finiront par osciller autour de la valeur théorique vraie, un peu à la manière d’un pendule.Avec un facteur d’amortissement de 0.85, il nous faut une quarantaine d’itérations pour affiner le calcul du PageRank.
  • P(d\q): objectifest d avoir le document pertinent a partir de la requete
  • Ranking (par IBRAHIM Sirine et TANIOS Dany)

    1. 1. 1 RANKING Présenté par : IBRAHIM Sirine TANIOS Dany Présenté à : Prof. CHBEIR Richard 12/27/2013
    2. 2. Plan 2/46  Introduction au Ranking  Les modèles de Ranking  Vector space model  PageRank  Language Model For IR  HITS  Conclusion 12/27/2013
    3. 3. Ranking – Conception Globale 3/46  Lorsque l'utilisateur donne une requête, une comparaison de mots est fait pour obtenir les documents les plus pertinents à la requête. Les documents pertinents sont ensuite classés en fonction de leur degré de pertinence, importance.. C’est le Ranking 12/27/2013
    4. 4. Pourquoi le Ranking ? 4/46  Avec le grand nombre de pages web qui existent aujourd'hui, les moteurs de recherche prennent un rôle important dans l'Internet actuel.  Mais même si elles permettent de trouver des pages pertinentes pour un sujet de recherche, de nos jours, le nombre de résultats renvoyés est souvent trop grand pour être exploré avec soin. 12/27/2013
    5. 5. Le rôle de Ranking 5/46  Le rôle des algorithmes de classement est donc de: sélectionnez les pages qui sont probablement en mesure de satisfaire les besoins de l'utilisateur, et de les amener dans les premières positions. 12/27/2013
    6. 6. Moteur de recherche 6/46 Le moteur de recherche est un simple outil pour nous 12/27/2013
    7. 7. Le contenu réel des moteurs 7/46 12/27/2013
    8. 8. Les modèles de Ranking 8/46 12/27/2013
    9. 9. Les modèles de Ranking 9/46 12/27/2013
    10. 10. Vector Space Model 10/46     Vector Space Model a été largement utilisé dans le domaine IR traditionnelle La plupart des moteurs de recherche utilisent également des mesures de similarité basées sur ce modèle pour classer les documents sur le Web Chaque terme , i, dans un document ou une requête, j, possède un poids de valeur réelle, Wij. Le modèle crée un espace dans lequel les documents et les requêtes sont représentés par des vecteurs 12/27/2013
    11. 11. Vector space model 11/46 12/27/2013
    12. 12. Vector space model 12/46  Les poids associés aux termes sont calculés sur la base de deux numéros:   En terme de fréquence fij: le nombre d’occurrence du terme yj dans le document xi Document de fréquence inverse: gj=log(N/dj) avec N est le nombre de documents total et dj est le nombre de documents contenant le terme yj 12/27/2013
    13. 13. Vector space model 13/46  TF-IDF [ Term Frequency – Inverst document Frequency ] méthode pour calculer les poids  wij = tfij idfi = tfij log2 (N/ dfi)  Avec tfij=fij / max(fij ) Exemple:  Considérant un document contenant les termes de fréquences données A(3), B(2), C(1)  Supposons une collection contenant 10 000 documents et fréquences des documents pour ces termes sont les suivants: A:50, B:1300, C:250 Donc : A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6 B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0 C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF =12/27/2013 1.8
    14. 14. Mesure de similarité 14/46  Une mesure de similarité est une fonction qui calcule le degré de similarité entre deux vecteurs  L'utilisation d'une mesure de similarité entre la requête et chaque document: Permet de classer les documents trouvés dans l'ordre de pertinence présumée But de Ranking 12/27/2013
    15. 15. Mesure de similarité 15/46 Similarité entre les vecteurs pour un document di et la requête q peut être calculé comme le produit intérieur vecteur Mesure combien de termes sont identifiés mais pas combien de termes qui ne le sont pas 12/27/2013
    16. 16. Mesure de Similarité 16/46  Exemple: D1 = 2T1 + 3T2 + 5T3  D2 = 3T1 + 7T2 + 1T3  => => Q = 0T1 + 0T2 + 2T3 sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2 12/27/2013
    17. 17. Mesure de Similarité Cosinus 17/46 MSC mesure le cosinus de l'angle entre les deux vecteurs D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81 D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13 Q = 0T1 + 0T2 + 2T3 12/27/2013
    18. 18. Les modèles de Ranking 18/46 12/27/2013
    19. 19. PageRank 19/46     PageRank est un algorithme d'analyse des liens qui attribue une pondération numérique à chaque page Web, dans le but de «mesurer» l'importance relative. Une excellente façon de hiérarchiser les résultats des recherches par mot clé web Chaque lien pointant d’une page à une autre est considéré comme un vote pour cette page Le PageRank d'une page A est donnée comme suit : PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) ) 12/27/2013
    20. 20. PageRank 20/46 les PageRanks forment un indicateur d’importance pour évaluer les pages Web PageRank est également affiché sur la barre d'outils de votre navigateur si vous avez installé la barre d'outils Google (http://toolbar.google.com/) 12/27/2013
    21. 21. PageRank 21/46  Chaque page comporte un certain nombre de outlinks (outedges) et backlinks (inedges) D B A C E • B et C sont les backlinks de A • D et E sont les outlinks de12/27/2013 A
    22. 22. PageRank 22/46  Deux cas du PageRank sont intéressants: 1) PageRank des Pages Web varient considérablement en termes de nombre de backlinks qu'ils ont. Par exemple, la page d'accueil de Netscape a 62 804 backlinks par rapport à la plupart des pages qui ont juste un peu de backlinks. 12/27/2013
    23. 23. PageRank 23/46 2) Backlinks provenant des pages importantes véhiculent plus d'importance à une page. Par exemple, si une page web a un lien de la page d'accueil de Yahoo, il peut être juste un lien, mais il est très important 12/27/2013
    24. 24. PageRank 24/46  Conclusion de deux cas du PageRank: Une page peut avoir un PageRank élevé: si il ya beaucoup de pages qui pointent vers elle Ou si il y a peu de pages qui pointent vers elle mais qui ont un PageRank élevé 12/27/2013
    25. 25. Exemple 2 PageRank 25/46 A B Nous ne connaissons pas le PR des deux pages, donc il nous faut une valeur de départ : 1.0 par exemple PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) ) PR(A) = 0.15 + 0.85 * ( 1 /1 ) =1 PR(B) = 0.15 + 0.85 * ( 1 / 1 ) =1 les valeurs ne changent pas... Prenons une valeur de départ différente : 0 12/27/2013
    26. 26. Exemple PageRank 26/46  Première itération  PR(A) = 0.15 + 0.85 * 0 = 0.15  PR(B)  = 0.15 + 0.85 * 0.15 = 0.2775 Deuxième itération    PR(A) = 0.15 + 0.85 * 0.2775 = 0.385875 PR(B) = 0.15 + 0.85 * 0.385875 = 0.47799375 Troisième itération    PR(A) = 0.15 + 0.85 * 0.47799375 = 0.5562946875 PR(B) = 0.15 + 0.85 * 0.5562946875 = 0.622850484375 ... 12/27/2013
    27. 27. Exemple PageRank 27/46  prenons une valeur 2.0 pour redémarrer notre expérience.  PR(A) = 0.15 + 0.85 * 2 = 1.85  PR(B) = 0.15 + 0.85 * 1.85 = 1.7225 cela baisse, essayons une fois de plus :  PR(A) = 0.15 + 0.85 * 1.7225 = 1.614125  PR(B) = 0.15 + 0.85 * 1.614125 = 1.52200625  Nos valeurs continuent à converger vers 1 12/27/2013
    28. 28. Les modèles de Ranking 28/46 12/27/2013
    29. 29. Language Model For IR 29/46  L'approche du Langage Model For IR : un document est un bon match pour une requête si le modèle de document est susceptible de générer la requête, qui à son tour se produit si le document contient les mots de la requête 12/27/2013
    30. 30. Query likelihood Model 30/46  P (d | q): La probabilité qu'un utilisateur interrogeant une requête q, aura le document d à l'esprit => P (d | q) = P (q | d) P (d) / P (q) P (q) - même pour tous les documents => ignoré P (d) - souvent considérée comme uniforme dans les documents => ignoré =>Classement par P (q | d) 12/27/2013
    31. 31. Query likelihood Model 31/46  P (q | d) : la probabilité qu'une requête Q soit générer par un modèle de langage provenant de documents d  Algorithme: Déduire un LM pour chaque document. Estimation de P (Q/Mdi) , la probabilité de génération de la requête en fonction de chacun de ces modèles de document. Classez les documents selon ces12/27/2013 probabilités 1. 2. 3.
    32. 32. Query likelihood Model 32/46 12/27/2013
    33. 33. Query likelihood Model 33/46 Exemple : 12/27/2013
    34. 34. Ranking Models 34/46 12/27/2013
    35. 35. Fondateur 35/46  Hypertext Induced Topic Search (HITS) ou Hubs and Authorities est un algorithme d’analyse de lien développé par Jon Kleinberg en 1998 pour prioriser les pages web 12/27/2013
    36. 36. Concept de l’algorithme 36/46  Hits est un algorithme de recherche par requête qui priorise les pages web en récupérant tous les in links et les out links tout en se basant sur l’analyse du contenu textuel de la requête donnée 12/27/2013
    37. 37. HITS 37/46  Quand un utilisateur fait entrer une requête, HITS procède comme le suivant:  Récupère la liste des pages relatives retournées par le moteur de recherche  Classifier les pages récupérées en 2 types de Ranking : authority ranking et hub ranking 12/27/2013
    38. 38. Hubs et Authorities 38/46 A est une authority A est une hub • Une page web est nommée Authority si elle est pointée par plusieurs hyperlink 12/27/2013 • Une page web est nommée Hub si elle pointe sur plusieurs hyperlink
    39. 39. Hubs et Authorities 39/46  Authority : des pages qui contiennent des informations importantes ciblées pour le sujet   L’Authority contient notre données cibles Hub: des pages qui contiennent des liens vers des authorities  Le hub est une page intermédiaire qui nous aide à trouver notre données cibles 12/27/2013
    40. 40. Le score d’Authority 40/46  Le score d’une page Authority est la somme des scores de toutes les pages qui pointent vers elle Sc( Sc(B C) ) Sc( D) Sc(A)= Sc(B)+ Sc(C)+ Sc(D) 12/27/2013 Le score Authority estime l’importance que apporte le contenu de cette page
    41. 41. Le score du Hub 41/46  Le score d’une page Hub est la somme des scores de toutes les pages qu’elle pointe sur Sc(A)= Sc(B)+ Sc(C)+ Sc(D) Sc(B ) Sc( C) Sc( D) Le score hub estime l’importance des liens qu’elle pointe 12/27/2013 sur
    42. 42. Affichage 42/46  Après avoir calculer les scores des hubs et authorities, le navigateur affiche les pages web comme suit: 1. Les pages Authority par ordre décroissant de score, qui contiennent les données visées 2. Les pages Hub par ordre décroissant de score, qui contiennent les informations qui m’ont aidé à attendre mon sujet cible 12/27/2013
    43. 43. Conclusion 43/46  Les algorithmes de Ranking facilitent la vie des utilisateurs de web en évitant que ces derniers se perdent dans des milliers et des milliers de pages web non classées 12/27/2013
    44. 44. Références 44/46  Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de http://homepage.divms.uiowa.edu/~asignori/phd/report/a-surveyof-ranking-algorithms.pdf. (2005)  Ian Rogers. "The Google Pagerank Algorithm and How It Works". Tiré de http://www.sirgroane.net/google-page-rank/  "Lecture #3: PageRank Algorithm - The Mathematics of Google Search". Tiré de http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Le cture3/lecture3.html 12/11/2013
    45. 45. 45/46 MERCI 12/27/2013
    46. 46. 46/46 Question ? 12/27/2013

    ×