RI sur leWeb
Les spécificités du Web
taille
structure
Les algorithmes de recherche sur le Web
PageRank
HITS
3.
Les spécificités duWeb
recherche à l'intérieur d'un site web vs. recherche sur le web
recherche sur un site web
les documents sont semi-structuré (HTML)
les documents contiennent des liens
exploiter la structure et les liens
recherche sur le web
les documents sont semi-structurés et contiennent des liens
les documents n'ont pas forcément un auteur identifié
le web est GRAND
4.
La taille duWeb
selon OCLC (Online Computer
Library Center)
nombre de sites web (un
site est un ensemble de
pages Web sur une même
adresse IP)
en 2005
Google annonçait plus de 8 milliards de pages indexées
(apparemment triplé en septembre)
Yahoo a annoncé en août 2005 un index de plus de 19.2
milliards de pages
En août 2008 : 1000 milliards de pages annoncées par
Google
1994 1996 1998 2000 2002 2004 2006 2008 2010
0
20000000
40000000
60000000
80000000
100000000
120000000
140000000
160000000
180000000
200000000
5.
La structure duWeb
une étude de 2000 [Broder et al. 2000] analyse une
structure de 200 millions de pages et 1.5 million de liens
comme un graphe non-orienté
une composante faiblement connexe de 186 millions de pages
(91%)
comme un graphe orienté
une composante fortement connexe (SCC) de 56 millions de
pages (21%)
un ensemble IN de pages ayant des liens vers SCC
un ensemble OUT de pages ayant des liens depuis SCC
6.
La structure duWeb
structure en « noeud papillon »
SCC
56 millions
de noeuds
OUT
44 millions
de noeuds
IN
44 millions
de noeuds
tubes
composantes déconnectées
7.
La structure duWeb
une autre approche : partitionnement bipartite en
distributeurs et autorités (hubs and authorities) [Kleinberg
1999]
Chaque page est autorité ou distributeur à un certain degré
les autorités sont des pages
sur lesquelles pointent
beaucoup de distributeurs
les distributeurs sont les
pages qui pointent sur
beaucoup d'autorités distributeurs
autorités
8.
La recherche surle Web
Étant donnée la taille du Web, l'évaluation de la recherche
est difficile
Le rappel n'est pas important
les utilisateurs ne regardent que les 10/20 premiers
documents
la recherche se fait sur un sous-ensemble du Web
les moteurs de recherche ne couvrent que 10% du Web public
Web invisible 200 fois plus grand que le Web public
analyse des logs de recherche pour comprendre le
comportement des utilisateurs
9.
Les requêtes surle Web
Les requêtes sur le web sont courtes :
en moyenne 2.4 mots
27% des requêtes contiennent un mot
32% deux mots
interactivité: le nombre moyen de requêtes par session est
de 2 ou 3
48% des utilisateurs ne soumettent qu'une requête
21% en soumettent deux
modification des requêtes par substitution de termes (33%),
ajout de termes (41%) ou suppression de termes (26%)
Qualités d'une pageWeb
La page Web qui a le plus haut score de similarité avec la
requête (sur la base des termes de la requête) n'est pas
forcément la plus pertinente
Souvent, les utilisateurs veulent une page
facilement compréhensible
fiable
qui puisse servir de point de départ pour faire de la navigation
sur le sujet
Idéalement, c'est une page que l'utilisateur ajoute dans ses
préférences
12.
Utiliser la structuredu Web
Utiliser la structure des liens du Web
algorithme PageRank de Google [Brin and Page, 1998]
Utiliser la structure distributeurs/autorités
algorithme HITS [Kleinberg,1999]
13.
PageRank
ordonner les pagesselon leur popularité
PageRank est un algorithme de classement global
ne dépend pas de la requête
l'ensemble des documents pertinents pour une requête sont
trouvés selon d'autres critères
la popularité est calculée sur toute la collection
Utilise la structure de liens pour calculer la popularité
14.
PageRank
La définition duscore de PageRank est récursive
avec u,v des pages Web
Bu
l'ensemble des pages pointant sur u
Nv
l'ensemble des liens partant de v
q un facteur d'atténuation
Ru=q1q
v Bu
R v
Nv
15.
PageRank - Exemple
Scorede classement après n
étapes de récursion (q=0.15)
A
B C
D E F G
n A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,150 0,211 0,211 0,211 0,211 0,211 0,211
2 0,150 0,214 0,214 0,240 0,240 0,240 0,240
3 0,150 0,214 0,214 0,241 0,241 0,241 0,241
16.
PageRank - Exemple
Scorede classement après n
étapes de récursion
A
B C
D E F G
n A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,393 0,393 0,393 0,150 0,150 0,150 0,150
2 0,818 0,405 0,405 0,150 0,150 0,150 0,150
3 0,839 0,405 0,405 0,150 0,150 0,150 0,150
17.
PageRank - Exemple
Scorede classement après n
étapes de récursion
A
B C
D E F G
A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,231 0,454 0,454 0,190 0,190 0,190 0,190
2 0,407 0,572 0,572 0,279 0,279 0,279 0,279
10 0,916 1,385 1,385 0,533 0,533 0,533 0,533
20 1,070 1,629 1,629 0,610 0,610 0,610 0,610
51 1,107 1,689 1,689 0,628 0,628 0,628 0,628
52 1,107 1,689 1,689 0,629 0,629 0,629 0,629
100 1,107 1,689 1,689 0,629 0,629 0,629 0,629
18.
PageRank - Exemple
Scorede classement après n
étapes de récursion
A
B C
D E F G
A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,474 0,292 0,292 0,211 0,211 0,211 0,211
2 0,673 0,396 0,396 0,300 0,300 0,300 0,300
10 1,630 0,873 0,873 0,611 0,611 0,611 0,611
20 1,914 1,016 1,016 0,705 0,705 0,705 0,705
48 1,983 1,050 1,050 0,728 0,728 0,728 0,728
49 1,983 1,050 1,050 0,729 0,729 0,729 0,729
100 1,984 1,050 1,050 0,729 0,729 0,729 0,729
19.
PageRank - Exemple
Scorede classement après n
étapes de récursion
A
B C
D E F G
A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,271 0,271 0,271 0,271 0,271 0,271 0,271
2 0,381 0,381 0,381 0,381 0,381 0,381 0,381
10 0,831 0,831 0,831 0,831 0,831 0,831 0,831
20 0,967 0,967 0,967 0,967 0,967 0,967 0,967
45 0,999 0,999 0,999 0,999 0,999 0,999 0,999
46 1,000 1,000 1,000 1,000 1,000 1,000 1,000
100 1,000 1,000 1,000 1,000 1,000 1,000 1,000
20.
Problèmes avec PageRank
problèmedu Rank sink
deux pages qui s'auto-alimentent
sans redistribuer leur score
les pages nouvelles sont défavorisées
distinction entre lien intra-sites et inter-sites
est-ce que PageRank doit être appliqué aux pages Web ou
aux sites Web ?
problème du Google bombing: utilisation artificielle de
PageRank
A B
21.
HITS
Hyperlink Induced TopicSearch
à partir d'une requête, faire une recherche simple à partir
des termes
récupérer un ensemble S de documents
étendre l'ensemble S à un ensemble V en ajoutant des pages
qui sont liés aux pages de S (liens entrants ou sortants)
une page de S ne peut pas introduire plus de d pages dans V
enlever les liens intra-site
les liens restant forment l'ensemble E
calculer les poids d'autorité et de distributeur des pages
de V
22.
HITS
étant donné l'ensemblede pages Web V et l'ensemble de
liens E
le poids d'autorité est défini par
le poids de distributeur est définir par
les deux poids sont normalisés
aq=
p ,q E
h p
hp=
p ,q E
ap
pV
ap
2
=1 et
pV
hp
2
=1
23.
HITS
calcule itérativement lespoids d'autorité et de distributeur de
chaque page de V
classe les documents par poids d'autorité
Cet algorithme peut aussi s'appliquer de manière globale
(sur toute la collection, indépendamment de la requête)
les pages plus fiables sont mieux classées
mais une page plus fiable mieux classée peut être moins
centrée sur la requête qu'une page moins fiable avec un score
de similarité plus élevée (sur la base des termes de la
requête)
Stratégies de recherche
Lesmoteurs de recherche sur le Web n'utilisent en général
pas une seule méthode
les méthodes de classement utilisant la structure du Web sont
couplées avec des méthodes basées sur les termes, ou
d'autres informations
date
visibilité ou positions des liens dans les documents
termes dans les liens
...
Google utilise PageRank parmi plus de 150 critères de
classement
26.
Les métamoteurs
idée: utiliserd'autres moteurs pour faire la recherche, et
fusionner les résultats
l'indexation du Web est coûteuse et complexe
permet de bénéficier d'un renforcement des résultats ou de
proposer d'autres méthodes de classement
MetaCrawler, DogPile, Profusion
permet d'intégrer une étape supplémentaire pour la
visualisation: catégorisation, cartographie
KartOO, Clusty
inconvénient: ne peut pas utiliser les options de recherche
avancée des différents moteurs (trop différentes)