Introduction à la Recherche d'information

6 239 vues

Publié le

Recherche d'information, Information Retrieval, Search, Indexing, Querying

Publié dans : Technologie
  • Soyez le premier à commenter

Introduction à la Recherche d'information

  1. 1. Introduction à la Recherche d’Information Saïd Radhouani Université de Genève 18 mai 2010
  2. 2. Définitions <ul><li>Recherche d’Information ( RI ) </li></ul><ul><li>Ensemble d’outils et techniques qui permettent de retrouver les documents contenant l’information pertinente à un besoin </li></ul><ul><li>Un Syst èm e de Recherche d’Information ( SRI ) </li></ul><ul><li>Permet de retrouver, à partir d'une base de documents, le ou les documents pertinents pour une requ êt e utilisateur </li></ul>Saïd Radhouani © 2010
  3. 3. Définitions <ul><li>Requ êt e : exprime le besoin d'information d'un utilisateur </li></ul><ul><li>Document : toute unité qui peut constituer une réponse à une requ êt e </li></ul><ul><li>B ase de documents : ensemble des documents disponibles </li></ul><ul><li>Pertinence : sur cette notion le système doit juger si un document doit êt re donné à l'utilisateur comme réponse ou non </li></ul>Saïd Radhouani © 2010
  4. 4. Approches de recherche sur le Web <ul><li>Basée sur la navigation </li></ul><ul><ul><li>Les outils dont le contenu est construit manuellement </li></ul></ul><ul><ul><ul><li>annuaires, catalogues ou répertoires organisés par thème </li></ul></ul></ul><ul><ul><ul><li>e x. Yahoo! Directory ( http://dir.yahoo.com ) , dmoz ( http://www.dmoz.org ), etc. </li></ul></ul></ul><ul><li>Basée sur l’interrogation </li></ul><ul><ul><li>Les outils dont le contenu est construit automatiquement </li></ul></ul><ul><ul><ul><li>moteurs de recherche </li></ul></ul></ul><ul><ul><ul><li>processus de recherche basé sur des requ êtes (ex. mots-clés) </li></ul></ul></ul><ul><ul><ul><li>e x. Google, Yahoo!, Bing, etc. </li></ul></ul></ul>Saïd Radhouani © 2010
  5. 5. Navigation - principe Saïd Radhouani © 2010 Web     thèmes art sport <ul><li>Collection de liens (vers des pages individuelles ou des sites Web entiers) organisée par thèmes (concepts) </li></ul>
  6. 6. Interrogation - Principe Saïd Radhouani © 2010 Documents Requête ? Correspondance ? Interrogation ? ?? Indexation ? Index ??
  7. 7. Processus de Recherche d’Information Saïd Radhouani © 2010 Serveurs HTTP Serveurs HTTP Serveur HTTP Client Navigateur Requête Réponse Moteur de Recherche Serveurs HTTP Interrogation indexation Documents Web d'origine index
  8. 8. Principales étapes <ul><li>Collecte des pages sur le Web </li></ul><ul><li>Indexation des pages </li></ul><ul><li>Stockage des adresses et d'une partie du contenu des pages </li></ul><ul><li>Réponse aux requêtes au moment de l’interrogation </li></ul><ul><ul><li>Partie informationnelle </li></ul></ul><ul><ul><li>Partie commerciale </li></ul></ul>Saïd Radhouani © 2010
  9. 9. Collecte des pages sur le Web <ul><li>Particularités du Web </li></ul><ul><ul><li>contenu des pages change régulièrement </li></ul></ul><ul><ul><li>plusieurs pages apparaissent et disparaissent </li></ul></ul><ul><li>Découverte dynamique des pages en utilisant des robots d’indexation (web crawler ou web spider) </li></ul><ul><li>Chaque moteur a son propre robot </li></ul><ul><ul><li>e x. AltaVista -> Scooter, Google -> Googlebot, Yahoo! -> Slurp </li></ul></ul>Saïd Radhouani © 2010
  10. 10. Robots - Principe <ul><li>Explorer le Web en partant de différentes pages et en suivant les liens hypertextes </li></ul><ul><li>Utiliser un ensemble d'URL de départ E </li></ul><ul><ul><ul><ul><li>accéder à une page p d'URL e dans E </li></ul></ul></ul></ul><ul><ul><ul><ul><li>retirer les balises HTML de p </li></ul></ul></ul></ul><ul><ul><ul><ul><li>extraire le contenu de p (générer son index) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>E = E Union cibles (p) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>recommencer </li></ul></ul></ul></ul><ul><li>Condition d’arrêt </li></ul><ul><ul><li>tout le graphe (composantes connexes accessibles par E) </li></ul></ul><ul><ul><li>nombre de pages prédéfini </li></ul></ul><ul><ul><li>profondeur d’un site </li></ul></ul><ul><ul><li>pages de catégories/contenu prédéfini (filtrage) </li></ul></ul><ul><ul><li>... </li></ul></ul>Saïd Radhouani © 2010
  11. 11. Robots <ul><li>Faire &quot;le tour&quot; du Web est long </li></ul><ul><li>L'ensemble de départ E est donné manuellement (&quot;seed pages&quot;) </li></ul><ul><li>Quand on crée un nouveau site, il n’y a pas de liens qui pointent vers ce dernier </li></ul><ul><li>Pour se faire connaître des moteurs </li></ul><ul><ul><li>Soumettre l’adresse d’un nouveau site via le formulaire du moteur de recherche </li></ul></ul><ul><ul><li>Contacter les webmasters des sites déjà référencés pour qu’ils ajoutent un lien vers le nouveau site </li></ul></ul>Saïd Radhouani © 2010
  12. 12. Robots - Utilisation des balises <ul><li>Inclure des informations dans la partie <head> de la page HTML </li></ul><ul><li>Indiquer aux robots </li></ul><ul><ul><li>que certaines pages ne doivent pas être indexées </li></ul></ul><ul><ul><ul><li>Pages dont les données changent constamment (ex. prévision météo) </li></ul></ul></ul><ul><ul><li>un ensemble de mots-clés </li></ul></ul><ul><ul><li>une courte description de la page </li></ul></ul><ul><li>Exemples </li></ul><ul><ul><li><META NAME = &quot;ROBOTS&quot; CONTENT=&quot;NOINDEX, NOFOLLOW&quot;> : pour tous les robots </li></ul></ul><ul><ul><li><META NAME = &quot;GOOGLEBOT&quot; CONTENT = &quot;NOINDEX, NOFOLLOW&quot;> : pour un robot particulier (google) </li></ul></ul>Saïd Radhouani © 2010
  13. 13. Indexation - Pourquoi utiliser les index ? <ul><li>Imaginez un moteur de recherche qui ne dispose pas d’une base d’index </li></ul><ul><li>Pour chaque requ ête, il doit </li></ul><ul><ul><li>accéder au Web (faire un tour complet) </li></ul></ul><ul><ul><li>analyser les documents un par un </li></ul></ul><ul><ul><li>juger l’importance de chaque document par rapport à la requête en question </li></ul></ul><ul><ul><li>«  f abriquer &quot; la réponse en fonction des pertinences des documents </li></ul></ul><ul><ul><li>afficher le résultat </li></ul></ul><ul><li>=> une base d’index est indispensable </li></ul>Saïd Radhouani © 2010
  14. 14. Indexation <ul><li>Analyse du document et interprétation de son contenu </li></ul>Saïd Radhouani © 2010 Documents Indexation ? Collecte des documents Web Index (local)
  15. 15. Indexation <ul><li>Un index contient une &quot;interprétation&quot; du document au lieu du document entier </li></ul><ul><li>Il contient </li></ul><ul><ul><li>les termes représentatifs d’un document </li></ul></ul><ul><ul><li>les poids (l’importance) des termes dans chaque document </li></ul></ul><ul><li>Chaque moteur possède un index inverse </li></ul><ul><ul><li>transformation de </li></ul></ul><ul><ul><li>&quot;quels mots apparaissent dans la page ?&quot; </li></ul></ul><ul><ul><li>en </li></ul></ul><ul><ul><li>&quot;dans quelles pages (URL) apparaît le mot X?&quot; </li></ul></ul>Saïd Radhouani © 2010
  16. 16. Indexation <ul><li>Le niveau d’analyse du document est variable (dépend du moteur de recherche) </li></ul><ul><li>Indexation multi-niveaux (contenu et structure) </li></ul><ul><li>Certains systèmes lemmatisent les mots -> réduction des mots à leur racine </li></ul><ul><ul><li>formes d'un verbe regroupées à l'infinitif </li></ul></ul><ul><ul><li>mots au pluriel ramenés au singulier </li></ul></ul><ul><ul><li>etc. </li></ul></ul><ul><li>Certains systèmes ne gardent qu'une partie des termes d'un document (ex. les 100 &quot;meilleurs&quot; pour une page) </li></ul>Saïd Radhouani © 2010
  17. 17. Indexation <ul><li>Exemples d’éléments qui peuvent être inclus/exclus d’un index </li></ul><ul><ul><li>Mots vides (stop words) </li></ul></ul><ul><ul><ul><li>Le, la, de, à, of, a, the, on, etc. </li></ul></ul></ul><ul><ul><li>Mots protégés (protword) </li></ul></ul><ul><ul><ul><li>Noms propres, etc. </li></ul></ul></ul><ul><ul><li>Listes des liens entre pages (source, destination, ancre) </li></ul></ul><ul><ul><li>Structure du texte </li></ul></ul><ul><ul><ul><li>titre et sous-titres </li></ul></ul></ul><ul><ul><li>Apparence </li></ul></ul><ul><ul><ul><li>Texte en gras, Police de grande taille </li></ul></ul></ul><ul><ul><li>... </li></ul></ul>Saïd Radhouani © 2010
  18. 18. Indexation <ul><li>Les métadonnées </li></ul><ul><li>Description </li></ul><ul><ul><li>Résumé du contenu de la page </li></ul></ul><ul><ul><li>Certains moteurs présentent la description dans la liste des résultats (plus explicite qu’un extrait arbitraire de la page) </li></ul></ul><ul><ul><li><META NAME = &quot;description&quot; CONTENT = &quot;résumé&quot;> </li></ul></ul><ul><li>Keywords </li></ul><ul><ul><li>Identifie les mots-clés les plus importants </li></ul></ul><ul><ul><li>Utilisé par certains moteurs pour classer les résultats </li></ul></ul><ul><ul><li>Utile si certains mots-clés n’apparaissent pas dans le texte </li></ul></ul><ul><ul><li>Peuvent inclure des fautes de frappe/orthographe courantes </li></ul></ul><ul><ul><li><META NAME = &quot;keywords&quot; CONTENT = &quot;liste des mots-clés&quot;> </li></ul></ul>Saïd Radhouani © 2010
  19. 19. Interrogation Saïd Radhouani © 2010 Documents Indexation ? Collecte des documents Moteur de Recherche Interrogation ? Client Navigateur Requ ête Web Index (local)
  20. 20. Processus d’interrogation <ul><li>Questions - y a-t-il une différence entre : </li></ul><ul><ul><li>une requ ête en majuscule et une en minuscule (PARIS, Paris, paris, PaRis) ? </li></ul></ul><ul><ul><li>les mots singuliers et les mots pluriels (Recherche d’information, Recherche d’informations) ? </li></ul></ul><ul><ul><li>un verbe à l’infinitif et un verbe conjugué (trouver, trouve) ? </li></ul></ul><ul><li>=> Analyse des requêtes est nécessaire </li></ul>Saïd Radhouani © 2010
  21. 21. Processus d’interrogation <ul><li>Pour répondre à la requ ê te, il faut retrouver des documents </li></ul><ul><ul><li>O ù ? </li></ul></ul><ul><ul><li>Comment va-t-on évaluer les documents ? </li></ul></ul><ul><ul><li>Quels documents retourner à l’utilisateur ? </li></ul></ul><ul><li>=> Chercher dans l’index, les documents correspondants </li></ul><ul><li>=> Effectuer un calcul pour évaluer la pertinence des documents retrouvés, afin de les ordonner </li></ul>Saïd Radhouani © 2010
  22. 22. Processus d’interrogation <ul><li>Une fois les documents sont retrouvés </li></ul><ul><ul><li>Dans quel ordre va-t-on les afficher ? </li></ul></ul><ul><ul><li>Comment va-t-on les présenter à l’utilisateur ? </li></ul></ul><ul><ul><ul><li>les documents entiers ? </li></ul></ul></ul><ul><ul><ul><li>des extraits ? </li></ul></ul></ul><ul><ul><ul><li>des liens ? </li></ul></ul></ul><ul><li>=> Classer les documents dans un ordre (pertinence, chronologique, ...?) </li></ul><ul><li>=> Formater les résultats qui seront présentés à l’utilisateur </li></ul><ul><ul><li>titre du résultat </li></ul></ul><ul><ul><li>extrait du texte </li></ul></ul><ul><ul><li>éventuellement mise en évidence des termes de la requ ête dans l’extrait du texte </li></ul></ul><ul><ul><li>pour certains moteurs, recherche des publicités correspondantes aux termes de la requ ête </li></ul></ul><ul><ul><li>e tc. </li></ul></ul>Saïd Radhouani © 2010
  23. 23. Modèle de SRI Saïd Radhouani © 2010 Documents Requête « pollution de l’air par les moteurs diesels » Modèle interprétation {pollu air moteur diesel} indexation      correspondance
  24. 24. Modes d’interrogation <ul><li>Plusieurs modes d’interrogation </li></ul><ul><ul><li>Mode mixte : navigation dans un catalogue et recherche par mots-clés à un certain niveau du catalogue </li></ul></ul><ul><ul><li>Simple (avec des opérateurs booléens implicites) </li></ul></ul><ul><ul><li>Avec des opérateurs booléens explicites </li></ul></ul><ul><ul><li>Avancée (en précisant certaines caractéristiques physiques des documents recherchés) </li></ul></ul>Saïd Radhouani © 2010
  25. 25. Syntaxe des requ êtes <ul><li>Différente pour chaque outil -> consulter la rubrique d'aide de chaque moteur. ex. www.abondance.com </li></ul><ul><li>Caractéristiques de quelques moteurs : www.searchengineshowdown.com/features/ </li></ul><ul><li>Ordre des mots dans la requ ête (dans Google, résultats différents si ordre des mots inversé) – ex. </li></ul><ul><li>Opérateurs booléens (voir dans la suite) </li></ul>Saïd Radhouani © 2010
  26. 26. Syntaxe des requ êtes <ul><li>Troncature : un signe qui remplace une ou plusieurs lettres d'un mot (représenté par &quot;*&quot;) </li></ul><ul><ul><li>e x. http://www.exalead.com/search , www.google.com </li></ul></ul><ul><li>Expression exacte :   &quot;maladie de la vache folle&quot; </li></ul><ul><li>Casse des caractères - différences selon les moteurs : </li></ul><ul><ul><li>Prise en compte de la casse : recherches à l'identique => PARIS donnera PARIS </li></ul></ul><ul><ul><li>Non prise en compte de la casse : majuscules/minuscules indifférentes => Hugo, HUGO, hUGo donneront le même résultat </li></ul></ul>Saïd Radhouani © 2010
  27. 27. Syntaxe des requ êtes <ul><li>Recherche avancée </li></ul><ul><ul><li>Langue </li></ul></ul><ul><ul><li>format des fichiers </li></ul></ul><ul><ul><li>emplacement dans le document : (corps du texte, titre, liens, URL) </li></ul></ul><ul><ul><li>date de publication </li></ul></ul><ul><ul><li>... </li></ul></ul><ul><li>e x. Google </li></ul>Saïd Radhouani © 2010
  28. 28. Exemples de requ êtes booléennes <ul><li>A AND B </li></ul><ul><li>A OR B </li></ul><ul><li>A NOT B </li></ul>Saïd Radhouani © 2010
  29. 29. Opérateurs booléens <ul><li>L'opérateur implicite </li></ul><ul><ul><li>ET (AND) : livre électronique => documents parlant à la fois de livre et d'électronique </li></ul></ul><ul><ul><li>OU (OR) : livre électronique => documents parlant ou de livre ou d'électronique, ou des deux à la fois </li></ul></ul>Saïd Radhouani © 2010
  30. 30. Autres opérateurs <ul><li>Phrase exacte : &quot;Recherche d'Information&quot; </li></ul><ul><li>Terme exacte : +or </li></ul><ul><li>Exclure des termes: moteur de recherche –google </li></ul><ul><li>Recherche par proximité : Recherche NEXT d'Information </li></ul><ul><li>... </li></ul><ul><ul><li>e x. http://www.exalead.com/search </li></ul></ul>Saïd Radhouani © 2010
  31. 31. Calcul de la pertinence <ul><li>Pertinence : la notion centrale dans la RI </li></ul><ul><li>=> estimation du degré d'adéquation du document proposé par rapport à la requête </li></ul><ul><li>Chaque moteur utilise sa propre combinaison de facteurs pour calculer la pertinence </li></ul><ul><li>ex. TF*IDF (Term Frequency * Inverse Document Frequency) </li></ul><ul><ul><li>Plus le terme de la requête est fréquent dans le document, plus le document est pertinent </li></ul></ul><ul><ul><li>Plus le terme apparaît dans plusieurs documents, moins il est discriminent </li></ul></ul><ul><li>Plus des poids pour certains facteurs </li></ul><ul><ul><li>Utilisation des balises (titre,...) </li></ul></ul>Saïd Radhouani © 2010
  32. 32. Classement des documents retrouvés - Ranking <ul><li>Une fois les documents pertinents ont été retrouvés, dans quel ordre va-t-on les afficher ? </li></ul><ul><li>On utilise un algorithme de &quot;ranking&quot; pour calculer un score pour chaque document retrouvé </li></ul><ul><li>Ordonner les documents en fonction de leur score </li></ul><ul><li>Plusieurs stratégies, selon les systèmes </li></ul><ul><ul><li>D émo (Google vs. Yahoo!) </li></ul></ul>Saïd Radhouani © 2010
  33. 33. Ranking - principe et exemples <ul><li>Exemple de facteurs qui permettent de mesurer le score </li></ul><ul><ul><li>Nombre d'occurrences des termes de la requête retrouvées dans un document </li></ul></ul><ul><ul><li>Rareté des termes par rapport à l'ensemble des documents </li></ul></ul><ul><ul><li>La proximité entre les termes </li></ul></ul><ul><ul><li>La position des termes dans le document (début du document, titre, …) </li></ul></ul><ul><ul><li>Présence des termes dans les balise META </li></ul></ul><ul><ul><li>etc. </li></ul></ul>Saïd Radhouani © 2010
  34. 34. Ranking – exemple : PageRank <ul><li>PageRank - Google </li></ul><ul><ul><li>Basée sur la notion de propagation de popularité </li></ul></ul><ul><ul><li>Le principe est d’évaluer l’importance d’une page en fonction des pages pointant vers elle </li></ul></ul><ul><ul><li>Hypothèse : “ une page référencée par un grand nombre de [bonnes] pages est une bonne page ” </li></ul></ul><ul><ul><li>Analyse quantitative et qualitative de liens </li></ul></ul>Saïd Radhouani © 2010 Wikipedia
  35. 35. Ranking – exemple : PageRank <ul><li>Principaux critères du score d'une page [brevet Google] </li></ul><ul><ul><ul><li>liens entrants et sortants </li></ul></ul></ul><ul><ul><ul><li>ancres </li></ul></ul></ul><ul><ul><ul><li>trafic associé à la page </li></ul></ul></ul><ul><ul><ul><li>comportement de lecteurs </li></ul></ul></ul><ul><ul><ul><li>choix de la page dans les résultats </li></ul></ul></ul><ul><ul><ul><li>nom de domaine </li></ul></ul></ul><ul><ul><ul><li>hébergement </li></ul></ul></ul><ul><ul><ul><li>confiance : indice TrustRank </li></ul></ul></ul><ul><ul><li>Possibilité de “sanctionner” les campagnes massives de liens artificiels </li></ul></ul>Saïd Radhouani © 2010
  36. 36. Évaluation d’un SRI <ul><li>Académie vs. Industrie </li></ul><ul><li>Le but de la RI est de retrouver des documents pertinents pour une requ ête (c-à-d, utile à l’utilisateur) </li></ul><ul><li>La qualité du système est mesurée en comparant les réponses du système avec les réponses idéales que l’utilisateur espère recevoir </li></ul><ul><li>Une collection test </li></ul><ul><ul><li>un ensemble de documents </li></ul></ul><ul><ul><li>un ensemble de requ êtes </li></ul></ul><ul><ul><li>la liste des documents pertinents pour chaque requête </li></ul></ul>Saïd Radhouani © 2010
  37. 37. Évaluation d’un SRI <ul><li>Deux critères </li></ul><ul><ul><li>La Précision : la proportion de documents pertinents retrouvés parmi tous les documents retrouvés par le système </li></ul></ul><ul><ul><li>Précision = Nombre de documents pertinents retrouvés </li></ul></ul><ul><ul><ul><ul><ul><li> Nombre de documents retrouvés </li></ul></ul></ul></ul></ul><ul><ul><li>Le Rappel : la proportion de documents pertinents retrouvés parmi tous les documents pertinents dans la base </li></ul></ul><ul><ul><li>Rappel = Nombre de documents pertinents retrouvés </li></ul></ul><ul><ul><ul><ul><ul><li>Nombre de documents pertinents </li></ul></ul></ul></ul></ul>Saïd Radhouani © 2010
  38. 38. Google <ul><li>Par défaut, utilise l’opérateur AND entre les termes </li></ul><ul><li>Expressions mises entres guillemets </li></ul><ul><li>Exclusion avec le signe - </li></ul><ul><li>Possibilité d’utiliser OR </li></ul><ul><li>Ne tient pas compte de la casse </li></ul><ul><li>Ignore les accents, sauf si le terme est précédé d’un + </li></ul><ul><li>Pas de troncature </li></ul><ul><li>Ignore les mots outils en dehors des expressions ou s’ils sont précédés d’un + (ex. +le froid) </li></ul><ul><li>Recherche d’un terme ou de ses synonymes : ~terme (ex. Voiture ~automobile) </li></ul>Saïd Radhouani © 2010
  39. 39. Google <ul><li>Restreindre la recherche à un certain sous-domaine </li></ul><ul><ul><li>site:.ch (nom de domaine se terminant par .ch) </li></ul></ul><ul><ul><li>site:www.unige.ch (pages de l’Université de Genève) </li></ul></ul><ul><ul><li>-site: .com (exclusion de toutes les pages venant d’un site .com) </li></ul></ul><ul><ul><li>pour avoir la liste des pages indexées pour un site -kdlsjflasj site:nom_site (kdlsjflasj ou autre mot qui ne figure pas dans les pages du site en question) </li></ul></ul><ul><li>Position des termes dans le titre de la page ou dans l’URL </li></ul><ul><ul><li>intitle: / allintitle: / inurl: / allinurl: </li></ul></ul><ul><li>Tous les types de requêtes précédents peuvent être combinés </li></ul><ul><li>Liens pointant vers une page </li></ul><ul><ul><li>link:adresse de la page </li></ul></ul><ul><ul><li>link:cui.unige.ch </li></ul></ul><ul><li>Informations sur la page info:url </li></ul><ul><li>Définition d’un terme define:terme </li></ul>Saïd Radhouani © 2010
  40. 40. Variétés des moteurs de recherche <ul><li>Ils diffèrent les uns des autres suivant plusieurs points de vue </li></ul><ul><ul><li>Les types de ressources indexés : sites Web, news, ect. </li></ul></ul><ul><ul><li>Les zones géographiques couvertes, les domaines ... </li></ul></ul><ul><ul><li>Leur mode de recherche des pages à indexer </li></ul></ul><ul><ul><li>La partie des pages qu'ils indexent </li></ul></ul><ul><ul><li>Leur mode d'indexation </li></ul></ul><ul><ul><li>Les possibilités d'interrogation qu'ils offrent (opérateurs, etc.) </li></ul></ul><ul><li>Leurs performances diffèrent par </li></ul><ul><ul><li>Le nombre de ressources indexées ou la taille de la base de documents </li></ul></ul><ul><ul><li>La fréquence de la mise à jour </li></ul></ul><ul><ul><li>La rapidité des réponses aux requêtes </li></ul></ul><ul><ul><li>La qualité des réponses ? </li></ul></ul>Saïd Radhouani © 2010
  41. 41. Méta-moteur de recherche Saïd Radhouani © 2010 R 1 R 2 R 3 il récupère les résultats de ces systèmes il fusionne les résultats R il présente sa réponse Q 1 Q 2 Q 3 M 2 M 1 M 3 le Méta-moteur la traduit et la soumet à des moteurs de recherche (Altavista, Google, Bing, ...) Q l'utilisateur pose une requête
  42. 42. Méta-moteur de recherche <ul><li>Exprimer une requête dans l'ensemble des langages des moteurs de base </li></ul><ul><li>Fusionner des réponses qui ont des valeurs de pertinences différentes (seul l'ordre est accessible) </li></ul><ul><ul><li>Problèmes centraux </li></ul></ul><ul><ul><ul><li>Combien de documents extraire des listes ? </li></ul></ul></ul><ul><ul><ul><li>Quels documents sélectionner dans chaque liste ? </li></ul></ul></ul><ul><ul><ul><li>Quels critères (similarité, rang) de sélection dans chaque liste ? </li></ul></ul></ul><ul><ul><ul><li>Quelle stratégie de combinaison des listes ? </li></ul></ul></ul><ul><ul><li>Il n'y a pas nécessairement beaucoup de recouvrement entre les systèmes </li></ul></ul><ul><ul><li>Le temps de réponse est lié au plus lent des moteurs utilisés </li></ul></ul>Saïd Radhouani © 2010
  43. 43. Méta-moteur de recherche - Exemples <ul><li>http://clusty.com </li></ul><ul><li>http://www.ixquick.com </li></ul><ul><li>http://www.mamma.com/ </li></ul><ul><li>http://www.copernic.com/ </li></ul><ul><li>... </li></ul>Saïd Radhouani © 2010
  44. 44. Choix de l'outils de recherche <ul><li>En fonction du besoin </li></ul><ul><ul><li>Choisir la navigation si on a besoin d’une information à caractère général, mais de bonne qualité, et peu évolutive </li></ul></ul><ul><ul><ul><li>e x. initiation à un domaine </li></ul></ul></ul><ul><ul><ul><li>Point de départ d’une visite </li></ul></ul></ul><ul><ul><li>Choisir l’interrogation si le besoin est précis et si le fait de savoir que l’information n’existe pas est aussi important (le rappel est plus fort) </li></ul></ul><ul><ul><ul><li>e x. qui parle de telle société ? </li></ul></ul></ul><ul><ul><ul><li>une réponse à une question technique </li></ul></ul></ul>Saïd Radhouani © 2010
  45. 45. Pour utiliser un outil <ul><li>Si vous n'êtes pas encore familiarisé avec ce moteur, lire les instructions </li></ul><ul><li>Penser aux opérateurs implicites : OU, ET </li></ul><ul><li>Considérer l'ensemble des opérateurs, et des règles pour aider à la recherche </li></ul><ul><li>Quelle est la portée de l'outil : zone géographique, partie d'Internet concernée, centre d'intérêt </li></ul><ul><li>Les outils eux-mêmes changent : relire les instructions </li></ul><ul><li>De nouveaux outils apparaissent -> se tenir au courant </li></ul>Saïd Radhouani © 2010
  46. 46. Conseils pour la recherche <ul><li>Identifier l'objectif sous forme d'une phrase </li></ul><ul><ul><li>déterminer les termes les plus significatifs </li></ul></ul><ul><ul><li>trouver d'éventuels synonymes </li></ul></ul><ul><ul><li>penser aux termes ambigus </li></ul></ul><ul><ul><li>privilégier les mots rares ou inhabituels </li></ul></ul><ul><li>Penser aux interrogations en différentes langues </li></ul><ul><li>Il ne faut pas avoir le reflex d’utiliser les moteurs de recherche --> Penser aux sites de recherche spécialisés dont vous avez intérêt à conserver les adresses (ex. pages jaunes, cff, tpg, etc. ) </li></ul><ul><li>Procéder par itérations successives : Recommencer .... en raffinant la recherche </li></ul>Saïd Radhouani © 2010
  47. 47. Stratégie de reformulation de requ ête <ul><li>Problème : Trop de documents (courant sur le Web) </li></ul><ul><ul><li>Requête trop courte </li></ul></ul><ul><ul><li>Terme trop ambiguë (ex: charge) </li></ul></ul><ul><ul><li>Sujet trop vaste </li></ul></ul><ul><li>Solutions possibles </li></ul><ul><ul><li>Reformuler en remplaçant un terme générique par un ou plusieurs termes spécifiques : voiture -> porsche </li></ul></ul><ul><ul><li>Augmenter le nombre de termes </li></ul></ul><ul><ul><ul><li>(voiture -> voiture AND allemande) connectés par des AND </li></ul></ul></ul><ul><ul><li>En cas d'utilisation de OR, tenter de les remplacer par des AND (même si le sens est changé...) </li></ul></ul><ul><ul><li>Si le système le permet, mettre des phrases complètes : </li></ul></ul><ul><ul><ul><li>&quot;recherche d'information et de documents&quot; pour éviter &quot;recherche AND information AND document&quot; </li></ul></ul></ul><ul><ul><li>Utiliser des négations : &quot;voiture AND NOT Renault&quot; </li></ul></ul><ul><ul><li>Mettre des critères de distance: &quot;voiture NEAR louer&quot; </li></ul></ul>Saïd Radhouani © 2010
  48. 48. Stratégie de reformulation de requ ête <ul><li>Problème : Trop peu de documents (rare sur le Web) </li></ul><ul><ul><li>Pallier &quot; à la main &quot; les limitations de l’indexation </li></ul></ul><ul><ul><ul><li>maladie du cœur OR maladie cardiaque </li></ul></ul></ul><ul><ul><li>Utiliser des OR qui connectent des termes synonymes </li></ul></ul><ul><ul><ul><li>voiture OR automobile </li></ul></ul></ul><ul><ul><li>Diminuer le nombre de termes (les moins importants) </li></ul></ul><ul><li>Mauvaise qualité : problème de classement </li></ul><ul><ul><li>Choisir des termes synonymes moins ambigus </li></ul></ul>Saïd Radhouani © 2010
  49. 49. Autres axes de RI <ul><li>Recherche d’information multilingue </li></ul><ul><li>Recherche multimédia </li></ul><ul><ul><li>Images </li></ul></ul><ul><ul><ul><li>Google Image, Yahoo! Image, flickr, etc. </li></ul></ul></ul><ul><ul><li>Vidéo </li></ul></ul><ul><ul><ul><li>YouTube, DailyMotion, fooooo.com , etc. </li></ul></ul></ul><ul><ul><li>Audio </li></ul></ul><ul><ul><ul><li>music.yahoo.com , songza.org, playlist.com, etc. </li></ul></ul></ul>Saïd Radhouani © 2010
  50. 50. Nouveaux besoins <ul><li>Recherche par domaine </li></ul><ul><ul><li>emplois, immobilier, automobile,... </li></ul></ul><ul><li>Moteur de recherche vertical </li></ul><ul><ul><li>Besoin d’information précis </li></ul></ul><ul><ul><li>Vocabulaire spécifique </li></ul></ul><ul><ul><li>Nouvelles technique d’indexation </li></ul></ul><ul><ul><li>Nouveaux critères de recherche (prix, marque,...) </li></ul></ul><ul><li>Exemples </li></ul><ul><ul><li>Emplois – Simply Hired, indeed,... </li></ul></ul><ul><ul><li>Automobile – Vast, iseecars,... </li></ul></ul><ul><ul><li>Immobilier – Zillow, Koodya,... </li></ul></ul>Saïd Radhouani © 2010
  51. 51. Nouvelles sources d’information <ul><li>Réseaux sociaux et blogs </li></ul><ul><ul><li>Twitter, facebook, FriendFeed, etc. </li></ul></ul><ul><li>Recherche en temps réel (Real-time search) </li></ul><ul><ul><li>Nouveaux problèmes </li></ul></ul><ul><ul><ul><li>téléchargement – temps réel </li></ul></ul></ul><ul><ul><ul><li>indexation </li></ul></ul></ul><ul><ul><ul><li>ordonnancement - pertinence, popularité, ... </li></ul></ul></ul><ul><ul><li>Exemple: Wowd, Topsy, OneRiot, etc. </li></ul></ul>Saïd Radhouani © 2010
  52. 52. Référencement <ul><li>Objectif : être LA référence dans le domaine </li></ul><ul><li>Deux stratégies </li></ul><ul><ul><li>référencement naturel (organique) </li></ul></ul><ul><ul><ul><li>annuaires et moteurs de recherche </li></ul></ul></ul><ul><ul><li>référencement payant (liens sponsorisés) </li></ul></ul>Saïd Radhouani © 2010
  53. 53. Référencement naturel <ul><ul><li>Soumission manuelle de son URL aux annuaires et moteurs de recherche </li></ul></ul><ul><ul><li>Suivi de l’évolution de son classement sur les moteurs de recherche </li></ul></ul><ul><ul><li>Juger la qualité de son site (Indicateur : Page Rank) </li></ul></ul><ul><ul><li>paramètres pris en compte </li></ul></ul><ul><ul><ul><li>choix des mots-clés (ce que recherchent les utilisateurs) </li></ul></ul></ul><ul><ul><ul><li>mise à jour du contenu en fonction des besoins/recherches des utilisateurs </li></ul></ul></ul><ul><ul><ul><li>absence d’erreurs 404 et de redirections (HTTP) </li></ul></ul></ul><ul><ul><ul><li>formater correctement l'information (HTML) </li></ul></ul></ul><ul><ul><ul><li>qualité des liens référents </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><li>Tenir compte des concurrents </li></ul><ul><ul><li>positionner son site sur tous les sites contenant un lien référent (backlink) vers un concurrent. (link:http://nomdusite.ch sur Google) </li></ul></ul><ul><ul><li>utiliser les mots-clés utilisés par le concurrent </li></ul></ul><ul><ul><li>utiliser des mots-clés &quot;discriminants&quot; </li></ul></ul>Saïd Radhouani © 2010
  54. 54. Références <ul><li>Robots : http://www.robotstxt.org/ </li></ul><ul><li>Livres : http://www.emse.fr/~mbeig/IR/books.html </li></ul><ul><li>Outils : http://www.emse.fr/~mbeig/IR/tools.html </li></ul><ul><li>Cours : http://www.iro.umontreal.ca/~nie/IFT6255/ </li></ul><ul><li>Conférences : SIGIR, CIKM, ECIR, CIVR, AIRS, ICME, etc. </li></ul><ul><li>Campagne d’évaluation de SRI : TREC, CLEF, NTCIR </li></ul><ul><li>Wikipedia </li></ul>Saïd Radhouani © 2010

×