Recherche d'information
Recherche d'information sur le Web
Cours Master Recherche Paris 13
Recherche et extraction d'information
Antoine Rozenknop
source : Romaric Besançon
CEA-LIST/LIC2M
RI sur le Web
Les spécificités du Web
taille
structure
Les algorithmes de recherche sur le Web
PageRank
HITS
Les spécificités du Web
recherche à l'intérieur d'un site web vs. recherche sur le web
recherche sur un site web
les documents sont semi-structuré (HTML)
les documents contiennent des liens
exploiter la structure et les liens
recherche sur le web
les documents sont semi-structurés et contiennent des liens
les documents n'ont pas forcément un auteur identifié
le web est GRAND
La taille du Web
selon OCLC (Online Computer
Library Center)
nombre de sites web (un
site est un ensemble de
pages Web sur une même
adresse IP)
en 2005
Google annonçait plus de 8 milliards de pages indexées
(apparemment triplé en septembre)
Yahoo a annoncé en août 2005 un index de plus de 19.2
milliards de pages
En août 2008 : 1000 milliards de pages annoncées par
Google
1994 1996 1998 2000 2002 2004 2006 2008 2010
0
20000000
40000000
60000000
80000000
100000000
120000000
140000000
160000000
180000000
200000000
La structure du Web
une étude de 2000 [Broder et al. 2000] analyse une
structure de 200 millions de pages et 1.5 million de liens
comme un graphe non-orienté
une composante faiblement connexe de 186 millions de pages
(91%)
comme un graphe orienté
une composante fortement connexe (SCC) de 56 millions de
pages (21%)
un ensemble IN de pages ayant des liens vers SCC
un ensemble OUT de pages ayant des liens depuis SCC
La structure du Web
structure en « noeud papillon »
SCC
56 millions
de noeuds
OUT
44 millions
de noeuds
IN
44 millions
de noeuds
tubes
composantes déconnectées
La structure du Web
une autre approche : partitionnement bipartite en
distributeurs et autorités (hubs and authorities) [Kleinberg
1999]
Chaque page est autorité ou distributeur à un certain degré
les autorités sont des pages
sur lesquelles pointent
beaucoup de distributeurs
les distributeurs sont les
pages qui pointent sur
beaucoup d'autorités distributeurs
autorités
La recherche sur le Web
Étant donnée la taille du Web, l'évaluation de la recherche
est difficile
Le rappel n'est pas important
les utilisateurs ne regardent que les 10/20 premiers
documents
la recherche se fait sur un sous-ensemble du Web
les moteurs de recherche ne couvrent que 10% du Web public
Web invisible 200 fois plus grand que le Web public
analyse des logs de recherche pour comprendre le
comportement des utilisateurs
Les requêtes sur le Web
Les requêtes sur le web sont courtes :
en moyenne 2.4 mots
27% des requêtes contiennent un mot
32% deux mots
interactivité: le nombre moyen de requêtes par session est
de 2 ou 3
48% des utilisateurs ne soumettent qu'une requête
21% en soumettent deux
modification des requêtes par substitution de termes (33%),
ajout de termes (41%) ou suppression de termes (26%)
Les requêtes sur le Web
Les requêtes sur le Web sont bruitées : 593 variations
orthographiques de Britney Spears sur Google en 3 mois
http://www.google.com/jobs/britney.html
488941 britney spears 664 briteney spears 147 brutney spears 89 brittnet spears ...
40134 brittany spears 601 bitney spears 133 britteney spears 89 brity spears 2 britttaney spears
36315 brittney spears 601 brinty spears 133 briyney spears 89 ritney spears 2 britttny spears
24342 britany spears 544 brittaney spears 121 bittany spears 80 bretny spears 2 brittyney spears
7331 britny spears 544 brittnay spears 121 bridney spears 80 britnany spears 2 brityne spears
6633 briteny spears 364 britey spears 121 britainy spears 73 brinteny spears 2 briyany spears
2696 britteny spears 364 brittiny spears 121 britmey spears 73 brittainy spears 2 brlttney spears
1807 briney spears 329 brtney spears 109 brietney spears 73 pritney spears 2 brotaney spears
1635 brittny spears 269 bretney spears 109 brithny spears 66 brintany spears 2 brotany spears
1479 brintey spears 269 britneys spears 109 britni spears 66 britnery spears 2 brottney spears
1479 britanny spears 244 britne spears 109 brittant spears 59 briitney spears 2 brriney spears
1338 britiny spears 244 brytney spears 98 bittney spears 59 britinay spears 2 brrittney spears
1211 britnet spears 220 breatney spears 98 brithey spears 54 britneay spears 2 brrtney spears
1096 britiney spears 220 britiany spears 98 brittiany spears 54 britner spears 2 brthney spears
991 britaney spears 199 britnney spears 98 btitney spears 54 britney's spears 2 brtianny spears
991 britnay spears 163 britnry spears 89 brietny spears 54 britnye spears 2 brtineys spears
811 brithney spears 147 breatny spears 89 brinety spears 54 britt spears 2 brtittny spears
811 brtiney spears 147 brittiney spears 89 brintny spears 54 brttany spears 2 brttiny spears
664 birtney spears 147 britty spears 89 britnie spears 48 bitany spears 2 brtttany spears
664 brintney spears 147 brotney spears 89 brittey spears 48 briny spears 2 brydney spears
Qualités d'une page Web
La page Web qui a le plus haut score de similarité avec la
requête (sur la base des termes de la requête) n'est pas
forcément la plus pertinente
Souvent, les utilisateurs veulent une page
facilement compréhensible
fiable
qui puisse servir de point de départ pour faire de la navigation
sur le sujet
Idéalement, c'est une page que l'utilisateur ajoute dans ses
préférences
Utiliser la structure du Web
Utiliser la structure des liens du Web
algorithme PageRank de Google [Brin and Page, 1998]
Utiliser la structure distributeurs/autorités
algorithme HITS [Kleinberg,1999]
PageRank
ordonner les pages selon leur popularité
PageRank est un algorithme de classement global
ne dépend pas de la requête
l'ensemble des documents pertinents pour une requête sont
trouvés selon d'autres critères
la popularité est calculée sur toute la collection
Utilise la structure de liens pour calculer la popularité
PageRank
La définition du score de PageRank est récursive
avec u,v des pages Web
Bu
l'ensemble des pages pointant sur u
Nv
l'ensemble des liens partant de v
q un facteur d'atténuation
Ru=q1q 
v Bu
R v 
Nv
PageRank - Exemple
Score de classement après n
étapes de récursion (q=0.15)
A
B C
D E F G
n A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,150 0,211 0,211 0,211 0,211 0,211 0,211
2 0,150 0,214 0,214 0,240 0,240 0,240 0,240
3 0,150 0,214 0,214 0,241 0,241 0,241 0,241
PageRank - Exemple
Score de classement après n
étapes de récursion
A
B C
D E F G
n A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,393 0,393 0,393 0,150 0,150 0,150 0,150
2 0,818 0,405 0,405 0,150 0,150 0,150 0,150
3 0,839 0,405 0,405 0,150 0,150 0,150 0,150
PageRank - Exemple
Score de classement après n
étapes de récursion
A
B C
D E F G
A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,231 0,454 0,454 0,190 0,190 0,190 0,190
2 0,407 0,572 0,572 0,279 0,279 0,279 0,279
10 0,916 1,385 1,385 0,533 0,533 0,533 0,533
20 1,070 1,629 1,629 0,610 0,610 0,610 0,610
51 1,107 1,689 1,689 0,628 0,628 0,628 0,628
52 1,107 1,689 1,689 0,629 0,629 0,629 0,629
100 1,107 1,689 1,689 0,629 0,629 0,629 0,629
PageRank - Exemple
Score de classement après n
étapes de récursion
A
B C
D E F G
A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,474 0,292 0,292 0,211 0,211 0,211 0,211
2 0,673 0,396 0,396 0,300 0,300 0,300 0,300
10 1,630 0,873 0,873 0,611 0,611 0,611 0,611
20 1,914 1,016 1,016 0,705 0,705 0,705 0,705
48 1,983 1,050 1,050 0,728 0,728 0,728 0,728
49 1,983 1,050 1,050 0,729 0,729 0,729 0,729
100 1,984 1,050 1,050 0,729 0,729 0,729 0,729
PageRank - Exemple
Score de classement après n
étapes de récursion
A
B C
D E F G
A C B E D G F
0 0,143 0,143 0,143 0,143 0,143 0,143 0,143
1 0,271 0,271 0,271 0,271 0,271 0,271 0,271
2 0,381 0,381 0,381 0,381 0,381 0,381 0,381
10 0,831 0,831 0,831 0,831 0,831 0,831 0,831
20 0,967 0,967 0,967 0,967 0,967 0,967 0,967
45 0,999 0,999 0,999 0,999 0,999 0,999 0,999
46 1,000 1,000 1,000 1,000 1,000 1,000 1,000
100 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Problèmes avec PageRank
problème du Rank sink
deux pages qui s'auto-alimentent
sans redistribuer leur score
les pages nouvelles sont défavorisées
distinction entre lien intra-sites et inter-sites
est-ce que PageRank doit être appliqué aux pages Web ou
aux sites Web ?
problème du Google bombing: utilisation artificielle de
PageRank
A B
HITS
Hyperlink Induced Topic Search
à partir d'une requête, faire une recherche simple à partir
des termes
récupérer un ensemble S de documents
étendre l'ensemble S à un ensemble V en ajoutant des pages
qui sont liés aux pages de S (liens entrants ou sortants)
une page de S ne peut pas introduire plus de d pages dans V
enlever les liens intra-site
les liens restant forment l'ensemble E
calculer les poids d'autorité et de distributeur des pages
de V
HITS
étant donné l'ensemble de pages Web V et l'ensemble de
liens E
le poids d'autorité est défini par
le poids de distributeur est définir par
les deux poids sont normalisés
aq= 
p ,q E
h p
hp= 
p ,q E
ap

pV
ap
2
=1 et 
pV
hp
2
=1
HITS
calcule itérativement les poids d'autorité et de distributeur de
chaque page de V
classe les documents par poids d'autorité
Cet algorithme peut aussi s'appliquer de manière globale
(sur toute la collection, indépendamment de la requête)
les pages plus fiables sont mieux classées
mais une page plus fiable mieux classée peut être moins
centrée sur la requête qu'une page moins fiable avec un score
de similarité plus élevée (sur la base des termes de la
requête)
HITS - Exemple
n a(A) h(A) a(C) h(C) a(B) h(B) a(E) h(E) a(D) h(D) a(G) h(G) a(F) h(F)
0 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38
1 0,00 0,64 0,17 0,48 0,17 0,48 0,51 0,16 0,34 0,32 0,34 0,00 0,68 0,00
2 0,00 0,61 0,17 0,55 0,23 0,37 0,58 0,24 0,41 0,37 0,29 0,00 0,58 0,00
3 0,00 0,65 0,13 0,52 0,22 0,42 0,55 0,21 0,35 0,31 0,33 0,00 0,64 0,00
5 0,00 0,64 0,13 0,53 0,23 0,40 0,55 0,22 0,36 0,33 0,32 0,00 0,63 0,00
10 0,00 0,64 0,14 0,54 0,23 0,38 0,56 0,22 0,37 0,34 0,31 0,00 0,62 0,00
20 0,00 0,64 0,14 0,54 0,23 0,38 0,56 0,22 0,37 0,34 0,31 0,00 0,62 0,00
50 0,00 0,64 0,14 0,54 0,23 0,38 0,56 0,22 0,37 0,34 0,31 0,00 0,62 0,00
Stratégies de recherche
Les moteurs de recherche sur le Web n'utilisent en général
pas une seule méthode
les méthodes de classement utilisant la structure du Web sont
couplées avec des méthodes basées sur les termes, ou
d'autres informations
date
visibilité ou positions des liens dans les documents
termes dans les liens
...
Google utilise PageRank parmi plus de 150 critères de
classement
Les métamoteurs
idée: utiliser d'autres moteurs pour faire la recherche, et
fusionner les résultats
l'indexation du Web est coûteuse et complexe
permet de bénéficier d'un renforcement des résultats ou de
proposer d'autres méthodes de classement
MetaCrawler, DogPile, Profusion
permet d'intégrer une étape supplémentaire pour la
visualisation: catégorisation, cartographie
KartOO, Clusty
inconvénient: ne peut pas utiliser les options de recherche
avancée des différents moteurs (trop différentes)

recherche d'information sur le web_intro

  • 1.
    Recherche d'information Recherche d'informationsur le Web Cours Master Recherche Paris 13 Recherche et extraction d'information Antoine Rozenknop source : Romaric Besançon CEA-LIST/LIC2M
  • 2.
    RI sur leWeb Les spécificités du Web taille structure Les algorithmes de recherche sur le Web PageRank HITS
  • 3.
    Les spécificités duWeb recherche à l'intérieur d'un site web vs. recherche sur le web recherche sur un site web les documents sont semi-structuré (HTML) les documents contiennent des liens exploiter la structure et les liens recherche sur le web les documents sont semi-structurés et contiennent des liens les documents n'ont pas forcément un auteur identifié le web est GRAND
  • 4.
    La taille duWeb selon OCLC (Online Computer Library Center) nombre de sites web (un site est un ensemble de pages Web sur une même adresse IP) en 2005 Google annonçait plus de 8 milliards de pages indexées (apparemment triplé en septembre) Yahoo a annoncé en août 2005 un index de plus de 19.2 milliards de pages En août 2008 : 1000 milliards de pages annoncées par Google 1994 1996 1998 2000 2002 2004 2006 2008 2010 0 20000000 40000000 60000000 80000000 100000000 120000000 140000000 160000000 180000000 200000000
  • 5.
    La structure duWeb une étude de 2000 [Broder et al. 2000] analyse une structure de 200 millions de pages et 1.5 million de liens comme un graphe non-orienté une composante faiblement connexe de 186 millions de pages (91%) comme un graphe orienté une composante fortement connexe (SCC) de 56 millions de pages (21%) un ensemble IN de pages ayant des liens vers SCC un ensemble OUT de pages ayant des liens depuis SCC
  • 6.
    La structure duWeb structure en « noeud papillon » SCC 56 millions de noeuds OUT 44 millions de noeuds IN 44 millions de noeuds tubes composantes déconnectées
  • 7.
    La structure duWeb une autre approche : partitionnement bipartite en distributeurs et autorités (hubs and authorities) [Kleinberg 1999] Chaque page est autorité ou distributeur à un certain degré les autorités sont des pages sur lesquelles pointent beaucoup de distributeurs les distributeurs sont les pages qui pointent sur beaucoup d'autorités distributeurs autorités
  • 8.
    La recherche surle Web Étant donnée la taille du Web, l'évaluation de la recherche est difficile Le rappel n'est pas important les utilisateurs ne regardent que les 10/20 premiers documents la recherche se fait sur un sous-ensemble du Web les moteurs de recherche ne couvrent que 10% du Web public Web invisible 200 fois plus grand que le Web public analyse des logs de recherche pour comprendre le comportement des utilisateurs
  • 9.
    Les requêtes surle Web Les requêtes sur le web sont courtes : en moyenne 2.4 mots 27% des requêtes contiennent un mot 32% deux mots interactivité: le nombre moyen de requêtes par session est de 2 ou 3 48% des utilisateurs ne soumettent qu'une requête 21% en soumettent deux modification des requêtes par substitution de termes (33%), ajout de termes (41%) ou suppression de termes (26%)
  • 10.
    Les requêtes surle Web Les requêtes sur le Web sont bruitées : 593 variations orthographiques de Britney Spears sur Google en 3 mois http://www.google.com/jobs/britney.html 488941 britney spears 664 briteney spears 147 brutney spears 89 brittnet spears ... 40134 brittany spears 601 bitney spears 133 britteney spears 89 brity spears 2 britttaney spears 36315 brittney spears 601 brinty spears 133 briyney spears 89 ritney spears 2 britttny spears 24342 britany spears 544 brittaney spears 121 bittany spears 80 bretny spears 2 brittyney spears 7331 britny spears 544 brittnay spears 121 bridney spears 80 britnany spears 2 brityne spears 6633 briteny spears 364 britey spears 121 britainy spears 73 brinteny spears 2 briyany spears 2696 britteny spears 364 brittiny spears 121 britmey spears 73 brittainy spears 2 brlttney spears 1807 briney spears 329 brtney spears 109 brietney spears 73 pritney spears 2 brotaney spears 1635 brittny spears 269 bretney spears 109 brithny spears 66 brintany spears 2 brotany spears 1479 brintey spears 269 britneys spears 109 britni spears 66 britnery spears 2 brottney spears 1479 britanny spears 244 britne spears 109 brittant spears 59 briitney spears 2 brriney spears 1338 britiny spears 244 brytney spears 98 bittney spears 59 britinay spears 2 brrittney spears 1211 britnet spears 220 breatney spears 98 brithey spears 54 britneay spears 2 brrtney spears 1096 britiney spears 220 britiany spears 98 brittiany spears 54 britner spears 2 brthney spears 991 britaney spears 199 britnney spears 98 btitney spears 54 britney's spears 2 brtianny spears 991 britnay spears 163 britnry spears 89 brietny spears 54 britnye spears 2 brtineys spears 811 brithney spears 147 breatny spears 89 brinety spears 54 britt spears 2 brtittny spears 811 brtiney spears 147 brittiney spears 89 brintny spears 54 brttany spears 2 brttiny spears 664 birtney spears 147 britty spears 89 britnie spears 48 bitany spears 2 brtttany spears 664 brintney spears 147 brotney spears 89 brittey spears 48 briny spears 2 brydney spears
  • 11.
    Qualités d'une pageWeb La page Web qui a le plus haut score de similarité avec la requête (sur la base des termes de la requête) n'est pas forcément la plus pertinente Souvent, les utilisateurs veulent une page facilement compréhensible fiable qui puisse servir de point de départ pour faire de la navigation sur le sujet Idéalement, c'est une page que l'utilisateur ajoute dans ses préférences
  • 12.
    Utiliser la structuredu Web Utiliser la structure des liens du Web algorithme PageRank de Google [Brin and Page, 1998] Utiliser la structure distributeurs/autorités algorithme HITS [Kleinberg,1999]
  • 13.
    PageRank ordonner les pagesselon leur popularité PageRank est un algorithme de classement global ne dépend pas de la requête l'ensemble des documents pertinents pour une requête sont trouvés selon d'autres critères la popularité est calculée sur toute la collection Utilise la structure de liens pour calculer la popularité
  • 14.
    PageRank La définition duscore de PageRank est récursive avec u,v des pages Web Bu l'ensemble des pages pointant sur u Nv l'ensemble des liens partant de v q un facteur d'atténuation Ru=q1q v Bu R v Nv
  • 15.
    PageRank - Exemple Scorede classement après n étapes de récursion (q=0.15) A B C D E F G n A C B E D G F 0 0,143 0,143 0,143 0,143 0,143 0,143 0,143 1 0,150 0,211 0,211 0,211 0,211 0,211 0,211 2 0,150 0,214 0,214 0,240 0,240 0,240 0,240 3 0,150 0,214 0,214 0,241 0,241 0,241 0,241
  • 16.
    PageRank - Exemple Scorede classement après n étapes de récursion A B C D E F G n A C B E D G F 0 0,143 0,143 0,143 0,143 0,143 0,143 0,143 1 0,393 0,393 0,393 0,150 0,150 0,150 0,150 2 0,818 0,405 0,405 0,150 0,150 0,150 0,150 3 0,839 0,405 0,405 0,150 0,150 0,150 0,150
  • 17.
    PageRank - Exemple Scorede classement après n étapes de récursion A B C D E F G A C B E D G F 0 0,143 0,143 0,143 0,143 0,143 0,143 0,143 1 0,231 0,454 0,454 0,190 0,190 0,190 0,190 2 0,407 0,572 0,572 0,279 0,279 0,279 0,279 10 0,916 1,385 1,385 0,533 0,533 0,533 0,533 20 1,070 1,629 1,629 0,610 0,610 0,610 0,610 51 1,107 1,689 1,689 0,628 0,628 0,628 0,628 52 1,107 1,689 1,689 0,629 0,629 0,629 0,629 100 1,107 1,689 1,689 0,629 0,629 0,629 0,629
  • 18.
    PageRank - Exemple Scorede classement après n étapes de récursion A B C D E F G A C B E D G F 0 0,143 0,143 0,143 0,143 0,143 0,143 0,143 1 0,474 0,292 0,292 0,211 0,211 0,211 0,211 2 0,673 0,396 0,396 0,300 0,300 0,300 0,300 10 1,630 0,873 0,873 0,611 0,611 0,611 0,611 20 1,914 1,016 1,016 0,705 0,705 0,705 0,705 48 1,983 1,050 1,050 0,728 0,728 0,728 0,728 49 1,983 1,050 1,050 0,729 0,729 0,729 0,729 100 1,984 1,050 1,050 0,729 0,729 0,729 0,729
  • 19.
    PageRank - Exemple Scorede classement après n étapes de récursion A B C D E F G A C B E D G F 0 0,143 0,143 0,143 0,143 0,143 0,143 0,143 1 0,271 0,271 0,271 0,271 0,271 0,271 0,271 2 0,381 0,381 0,381 0,381 0,381 0,381 0,381 10 0,831 0,831 0,831 0,831 0,831 0,831 0,831 20 0,967 0,967 0,967 0,967 0,967 0,967 0,967 45 0,999 0,999 0,999 0,999 0,999 0,999 0,999 46 1,000 1,000 1,000 1,000 1,000 1,000 1,000 100 1,000 1,000 1,000 1,000 1,000 1,000 1,000
  • 20.
    Problèmes avec PageRank problèmedu Rank sink deux pages qui s'auto-alimentent sans redistribuer leur score les pages nouvelles sont défavorisées distinction entre lien intra-sites et inter-sites est-ce que PageRank doit être appliqué aux pages Web ou aux sites Web ? problème du Google bombing: utilisation artificielle de PageRank A B
  • 21.
    HITS Hyperlink Induced TopicSearch à partir d'une requête, faire une recherche simple à partir des termes récupérer un ensemble S de documents étendre l'ensemble S à un ensemble V en ajoutant des pages qui sont liés aux pages de S (liens entrants ou sortants) une page de S ne peut pas introduire plus de d pages dans V enlever les liens intra-site les liens restant forment l'ensemble E calculer les poids d'autorité et de distributeur des pages de V
  • 22.
    HITS étant donné l'ensemblede pages Web V et l'ensemble de liens E le poids d'autorité est défini par le poids de distributeur est définir par les deux poids sont normalisés aq= p ,q E h p hp= p ,q E ap pV ap 2 =1 et pV hp 2 =1
  • 23.
    HITS calcule itérativement lespoids d'autorité et de distributeur de chaque page de V classe les documents par poids d'autorité Cet algorithme peut aussi s'appliquer de manière globale (sur toute la collection, indépendamment de la requête) les pages plus fiables sont mieux classées mais une page plus fiable mieux classée peut être moins centrée sur la requête qu'une page moins fiable avec un score de similarité plus élevée (sur la base des termes de la requête)
  • 24.
    HITS - Exemple na(A) h(A) a(C) h(C) a(B) h(B) a(E) h(E) a(D) h(D) a(G) h(G) a(F) h(F) 0 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 0,38 1 0,00 0,64 0,17 0,48 0,17 0,48 0,51 0,16 0,34 0,32 0,34 0,00 0,68 0,00 2 0,00 0,61 0,17 0,55 0,23 0,37 0,58 0,24 0,41 0,37 0,29 0,00 0,58 0,00 3 0,00 0,65 0,13 0,52 0,22 0,42 0,55 0,21 0,35 0,31 0,33 0,00 0,64 0,00 5 0,00 0,64 0,13 0,53 0,23 0,40 0,55 0,22 0,36 0,33 0,32 0,00 0,63 0,00 10 0,00 0,64 0,14 0,54 0,23 0,38 0,56 0,22 0,37 0,34 0,31 0,00 0,62 0,00 20 0,00 0,64 0,14 0,54 0,23 0,38 0,56 0,22 0,37 0,34 0,31 0,00 0,62 0,00 50 0,00 0,64 0,14 0,54 0,23 0,38 0,56 0,22 0,37 0,34 0,31 0,00 0,62 0,00
  • 25.
    Stratégies de recherche Lesmoteurs de recherche sur le Web n'utilisent en général pas une seule méthode les méthodes de classement utilisant la structure du Web sont couplées avec des méthodes basées sur les termes, ou d'autres informations date visibilité ou positions des liens dans les documents termes dans les liens ... Google utilise PageRank parmi plus de 150 critères de classement
  • 26.
    Les métamoteurs idée: utiliserd'autres moteurs pour faire la recherche, et fusionner les résultats l'indexation du Web est coûteuse et complexe permet de bénéficier d'un renforcement des résultats ou de proposer d'autres méthodes de classement MetaCrawler, DogPile, Profusion permet d'intégrer une étape supplémentaire pour la visualisation: catégorisation, cartographie KartOO, Clusty inconvénient: ne peut pas utiliser les options de recherche avancée des différents moteurs (trop différentes)