Second cours du module référencement du Master IDEMM Lille. Les différents outils de recherche, le fonctionnement des moteurs, anatomie des pages de résultats, éléments d'interface, personnalisation des résultats, présentation du concept de recherche universelle
Master IDEMM - Fonctionnement des moteurs de recherche
1. LES OUTILS DE RECHERCHE
Auteur : Sébastien Billard (s.billard@free.fr)
2. TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES
Moteurs Annuaires
- Gestion automatisée - Gestion humaine
- Entrée par indexation - Entrée par soumission
- Tout le web a vocation à être indexé - Des choix éditoriaux sont faits
- Tout le contenu des pages est indexé - Seules les références aux sites sont indexées
- Navigation par requêtes - Navigation arborescente (recherche possible)
Auteur : Sébastien Billard (s.billard@free.fr)
3. FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)
Web Indexeur
Index
Moteur
de recherche
Auteur : Sébastien Billard (s.billard@free.fr)
4. FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)
(Schema basé sur l'article « The Anatomy
Web of a Large-Scale Hypertextual Web
Search Engine », par Sergey Brin et
Lawrence Page)
Serveur d'URLs Crawlers Serveur tampon
Dicte les URLs à crawler Indexent, envoient le Compresse, numérote et envoie
contenu des pages
Ancres
Résolveur d'URLs Stocke les liens et
ancres associées
Dépôt
Convertit les URLs en URLs absolues, Indexeur
et lie les documents entre eux
Décompresse, parse Contient une copie de chaque
page HTML indexée (cache)
Silos
Silos
Silos Trieur Lexique
Liens Index des documents Maintient une Trie le contenu des silos et
correspondance produit un index inversé
Stocke une Répertories l'ensemble des mots / documents
cartographie du web documents indexés (index inversé)
(index direct)
Moteur de recherche
Pagerank Répond aux requêtes des utilisateurs
Auteur : Sébastien Billard (s.billard@free.fr)
5. COMMENT PENSE UN MOTEUR ?
Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre
dans une bibliothèque :
Contenu Titre Balise <title>
4ème de couverture Balise <meta> description
Table des matière Titraille (balises <h1> à <h6>)
Contenu général Ensemble des textes
Structure Lisibilité Accessibilité technique et
structuration
Popularité Recommandations Quantité, qualité et teneur des
liens entrants
Auteur : Sébastien Billard (s.billard@free.fr)
6. ANATOMIE GENERALE D'UNE PAGE DE RESULTATS
Résultats « Onebox »
Liens sponsorisés
Résultats naturels
Auteur : Sébastien Billard (s.billard@free.fr)
7. ELEMENTS D'INTERFACE GOOGLE
Sitelinks
Résultats indentés
- Déterminés algorithmiquement
- Jusque 8 éléments
Classic sitelinks
- Contextuels
- Déterminés algorithmiquement
- Jusque 4 éléments Hiérarchie de site
Jumplinks
- Basées sur les fils d'ariane des sites
- Contextuels
- Basés sur les ancres
Auteur : Sébastien Billard (s.billard@free.fr)
8. RECHERCHE UNIVERSELLE
Objectif : « faire tomber les silos de
Actualités l'information qui existent sur le web »
(Marissa Mayer, 16/05/07)
Pages web
Billets de blogs
Images
Vidéos
Auteur : Sébastien Billard (s.billard@free.fr)
9. PERSONNALISATION DES RESULTATS DE RECHERCHE
Plusieurs critères concourent la personnalisation des résultats :
Localisation de l'utilisateur Interface utilisée
(IP, langue du navigateur) (.com, .fr...)
Comportement de Personnalisations
l'utilisateur par l'utilisateur
(loggé ou non) (Searchwiki)
Auteur : Sébastien Billard (s.billard@free.fr)
11. LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE
Guillemets "
Pour rechercher une chaine de mots
Tiret -
Pour exclure des mots ou sites
Site:
Pour rechercher sur un domaine, un sous-domaine, un répertoire
Filetype:
Pour rechercher un type de fichier donné
Inurl: et allinurl:
Pour rechercher les pages dont l'URL contient une expression
Intitle: et allintitle:
Pour rechercher les pages dont le <title> contient une expression
Link:
Pour recherche des pages pointant vers une URL donnée
Auteur : Sébastien Billard (s.billard@free.fr)
12. LES OPERATEURS UTILES AU REFERENCEUR : BING
Linkfromdomain:
Pour rechercher les liens sortants d'un domaine
Ip:
Pour rechercher les sites hébergés sur une IP
Inanchor:
Pour rechercher les sites liés avec une ancre donnée
Auteur : Sébastien Billard (s.billard@free.fr)