Master IDEMM - Fonctionnement des moteurs de recherche

4 366 vues

Publié le

Second cours du module référencement du Master IDEMM Lille. Les différents outils de recherche, le fonctionnement des moteurs, anatomie des pages de résultats, éléments d'interface, personnalisation des résultats, présentation du concept de recherche universelle

Publié dans : Technologie, Design
1 commentaire
7 j’aime
Statistiques
Remarques
Aucun téléchargement
Vues
Nombre de vues
4 366
Sur SlideShare
0
Issues des intégrations
0
Intégrations
2 046
Actions
Partages
0
Téléchargements
442
Commentaires
1
J’aime
7
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Master IDEMM - Fonctionnement des moteurs de recherche

  1. 1. LES OUTILS DE RECHERCHE Auteur : Sébastien Billard (s.billard@free.fr)
  2. 2. TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES Moteurs Annuaires - Gestion automatisée - Gestion humaine - Entrée par indexation - Entrée par soumission - Tout le web a vocation à être indexé - Des choix éditoriaux sont faits - Tout le contenu des pages est indexé - Seules les références aux sites sont indexées - Navigation par requêtes - Navigation arborescente (recherche possible) Auteur : Sébastien Billard (s.billard@free.fr)
  3. 3. FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE) Web Indexeur Index Moteur de recherche Auteur : Sébastien Billard (s.billard@free.fr)
  4. 4. FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE) (Schema basé sur l'article « The Anatomy Web of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page) Serveur d'URLs Crawlers Serveur tampon Dicte les URLs à crawler Indexent, envoient le Compresse, numérote et envoie contenu des pages Ancres Résolveur d'URLs Stocke les liens et ancres associées Dépôt Convertit les URLs en URLs absolues, Indexeur et lie les documents entre eux Décompresse, parse Contient une copie de chaque page HTML indexée (cache) Silos Silos Silos Trieur Lexique Liens Index des documents Maintient une Trie le contenu des silos et correspondance produit un index inversé Stocke une Répertories l'ensemble des mots / documents cartographie du web documents indexés (index inversé) (index direct) Moteur de recherche Pagerank Répond aux requêtes des utilisateurs Auteur : Sébastien Billard (s.billard@free.fr)
  5. 5. COMMENT PENSE UN MOTEUR ? Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque : Contenu Titre Balise <title> 4ème de couverture Balise <meta> description Table des matière Titraille (balises <h1> à <h6>) Contenu général Ensemble des textes Structure Lisibilité Accessibilité technique et structuration Popularité Recommandations Quantité, qualité et teneur des liens entrants Auteur : Sébastien Billard (s.billard@free.fr)
  6. 6. ANATOMIE GENERALE D'UNE PAGE DE RESULTATS Résultats « Onebox » Liens sponsorisés Résultats naturels Auteur : Sébastien Billard (s.billard@free.fr)
  7. 7. ELEMENTS D'INTERFACE GOOGLE Sitelinks Résultats indentés - Déterminés algorithmiquement - Jusque 8 éléments Classic sitelinks - Contextuels - Déterminés algorithmiquement - Jusque 4 éléments Hiérarchie de site Jumplinks - Basées sur les fils d'ariane des sites - Contextuels - Basés sur les ancres Auteur : Sébastien Billard (s.billard@free.fr)
  8. 8. RECHERCHE UNIVERSELLE Objectif : « faire tomber les silos de Actualités l'information qui existent sur le web » (Marissa Mayer, 16/05/07) Pages web Billets de blogs Images Vidéos Auteur : Sébastien Billard (s.billard@free.fr)
  9. 9. PERSONNALISATION DES RESULTATS DE RECHERCHE Plusieurs critères concourent la personnalisation des résultats : Localisation de l'utilisateur Interface utilisée (IP, langue du navigateur) (.com, .fr...) Comportement de Personnalisations l'utilisateur par l'utilisateur (loggé ou non) (Searchwiki) Auteur : Sébastien Billard (s.billard@free.fr)
  10. 10. PERSONNALISATION POUR TOUT LE MONDE ! Auteur : Sébastien Billard (s.billard@free.fr)
  11. 11. LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE Guillemets " Pour rechercher une chaine de mots Tiret - Pour exclure des mots ou sites Site: Pour rechercher sur un domaine, un sous-domaine, un répertoire Filetype: Pour rechercher un type de fichier donné Inurl: et allinurl: Pour rechercher les pages dont l'URL contient une expression Intitle: et allintitle: Pour rechercher les pages dont le <title> contient une expression Link: Pour recherche des pages pointant vers une URL donnée Auteur : Sébastien Billard (s.billard@free.fr)
  12. 12. LES OPERATEURS UTILES AU REFERENCEUR : BING Linkfromdomain: Pour rechercher les liens sortants d'un domaine Ip: Pour rechercher les sites hébergés sur une IP Inanchor: Pour rechercher les sites liés avec une ancre donnée Auteur : Sébastien Billard (s.billard@free.fr)

×