Moteurs de recherche : pour en finir avec les idées reçues… ADBS Lorraine Véronique MESGUICH INFOTHEQUE POLE UNIVERSITAIRE...
La recherche d’information sur Internet :  un art plutôt qu’une science <ul><li>Abondance de l’information </li></ul><ul><...
Données  bibliographiques Texte  intégral Contenus  éditoriaux  (payants) « Grand  public » Professionnel Enseignement Don...
Deux approches méthodologiques <ul><li>L’approche « mots clés » : recherche par mots clés sur texte intégral des pages web...
Recherche d ’information sur Internet :  se méfier des idées reçues <ul><li>Les moteurs de recherche, même les plus puissa...
Les nouvelles tendances de la recherche d ’information sur le web <ul><li>Regroupement des acteurs. Simplification de la s...
3 générations de moteurs de recherche
Portrait robot d’un moteur idéal... Pertinence Interface d’interrogation Utilitaires  Classement  et visualisation Contenu...
Les principaux critères de pertinence des moteurs <ul><li>- Occurrence et densité des mots-clés - Présence dans l ’URL, da...
Moteurs de blogs <ul><li>Technorati  : 56 millions de blogs « scrutés »  Rech par mots-clés, ou par tags  www.technorati.c...
Les fils RSS (Really simple syndication, rich site summary) <ul><li>Flux de contenus gratuits en provenance de </li></ul><...
Identifier des flux RSS <ul><li>Moteurs de recherche spécialisés RSS : Feedster, EasyRSS… </li></ul><ul><li>Recherche avan...
Accéder aux fils RSS <ul><li>Intégration aux navigateurs Firefox (ajouter l’adresse du flux RSS dans le marque page) ou Sa...
La navigation « sociale » <ul><li>La navigation &quot;sociale&quot; consiste à exploiter des adresses de sites ou de pages...
Web invisible <ul><li>Pages non localisables et/ou non indexables par les moteurs de recherche web </li></ul><ul><li>Accéd...
Le web invisible : comment y accéder <ul><li>Bonne connaissance des ressources. Veille sur un domaine (portails thématique...
Internet versus bases de données <ul><li>Intérêt d ’Internet : . Multiplicité des sources d ’information . Interactivité ....
Méta-moteurs : quand les utiliser <ul><li>Les méta-moteurs « on-line » (Ixquick, Profusion...) parfois trop aléatoires. Pr...
Avantages et inconvénients des méta-moteurs <ul><li> Permet de cumuler la puissance de plusieurs outils. </li></ul><ul><l...
Une tendance : les méta-moteurs spécialisés <ul><li>Recherche simultanée sur des corpus spécialisés (web invisible). Mélan...
De nouveaux types d’annuaires <ul><li>Les annuaires « contributifs » ou « ouverts » ex : Open Directory  www.dmoz.fr   </l...
Les techniques spécifiques utilisables pour la recherche de sources  (source : Armelle Thomas) Trouver des portails / site...
Identifier des portails spécialisés <ul><li>Attention à l’exhaustivité et à la mise à jour </li></ul><ul><li>Répertoires o...
L’évaluation des sites web <ul><li>Identifier l’origine d’un site (Alexa) </li></ul><ul><li>Identifier la date de dernière...
Les agents d ’alerte <ul><li>Signalent les modifications à l ’intérieur d ’une page </li></ul><ul><li>Agents d ’alerte « o...
KB Crawl: surveillance de pages dynamiques
Automatiser une requête récurrente avec Google <ul><li>Google newsalert  : veille sur l ’actualité et les pages web  www.g...
Les 4 principaux modes de recherche d’information  (source : URFIST)
En guise de conclusion… les 10 règles d ’or <ul><li>Savoir questionner, choisir les bons mots-clés </li></ul><ul><li>Savoi...
Prochain SlideShare
Chargement dans…5
×

Moteurs de recherche, finir avec les idées reçues

4 152 vues

Publié le

Publié dans : Technologie, Business
0 commentaire
1 j’aime
Statistiques
Remarques
  • Soyez le premier à commenter

Aucun téléchargement
Vues
Nombre de vues
4 152
Sur SlideShare
0
Issues des intégrations
0
Intégrations
35
Actions
Partages
0
Téléchargements
183
Commentaires
0
J’aime
1
Intégrations 0
Aucune incorporation

Aucune remarque pour cette diapositive

Moteurs de recherche, finir avec les idées reçues

  1. 1. Moteurs de recherche : pour en finir avec les idées reçues… ADBS Lorraine Véronique MESGUICH INFOTHEQUE POLE UNIVERSITAIRE LEONARD DE VINCI 12 octobre 2006
  2. 2. La recherche d’information sur Internet : un art plutôt qu’une science <ul><li>Abondance de l’information </li></ul><ul><li>Hétérogénéité et fragmentation de l’information </li></ul><ul><li>Coexistence de contenus structurés et non structurés </li></ul><ul><li>Renouvellement continuel </li></ul><ul><li>Multilinguisme </li></ul><ul><li>Internet, outil documentaire ou outil de communication ? </li></ul>
  3. 3. Données bibliographiques Texte intégral Contenus éditoriaux (payants) « Grand public » Professionnel Enseignement Données factuelles « Question réponse » Etude complète Connaissance du sujet Utilisateur final / Professionnel de l ’information
  4. 4. Deux approches méthodologiques <ul><li>L’approche « mots clés » : recherche par mots clés sur texte intégral des pages web. La qualité de la recherche dépendra du choix des mots clés : nombre de mots clés, degré de précision, langue, combinaison avec opérateurs booléens... Inconvénient : le manque d’exhaustivité des moteurs et méta-moteurs (« web invisible ») </li></ul><ul><li>L’approche « exploration des sources » : identifier les sources d’information les plus pertinentes par rapport à la requête, utiliser ensuite les outils de recherche intégrés à ces sources, l ’exploration de liens... Inconvénient : suppose une bonne connaissance des sources </li></ul>
  5. 5. Recherche d ’information sur Internet : se méfier des idées reçues <ul><li>Les moteurs de recherche, même les plus puissants, n ’indexent qu’une partie du web (notion de pages dynamiques, « web invisible ») </li></ul><ul><li>Les moteurs de recherche n ’indexent pas le web en temps réel et ne sont pas à jour </li></ul><ul><li>L ’outil n ’est pas tout : rechercher l ’information « à la source » : portails spécialisés, portails géographiques... </li></ul>
  6. 6. Les nouvelles tendances de la recherche d ’information sur le web <ul><li>Regroupement des acteurs. Simplification de la syntaxe </li></ul><ul><li>« Clustering » (Exalead, Vivisimo…) </li></ul><ul><li>Le web 2.0 ou « web social »: vu comme une plate-forme de services crée par les utilisateurs pour les utilisateurs </li></ul><ul><li>Développement des portails spécialisés (accès au web invisible) </li></ul><ul><li>Personnalisation (Yahoo, Google, Ujiko) </li></ul><ul><li>Représentation cartographique des résultats (Kartoo ) </li></ul><ul><li>Développement des flux RSS </li></ul>
  7. 7. 3 générations de moteurs de recherche
  8. 8. Portrait robot d’un moteur idéal... Pertinence Interface d’interrogation Utilitaires Classement et visualisation Contenus Qualité, quantité mise à jour Suggestion de mots clés, Recherche booléenne, options avancées Clustering Cartographie Résumé automatique Traduction Surveillance automatique
  9. 9. Les principaux critères de pertinence des moteurs <ul><li>- Occurrence et densité des mots-clés - Présence dans l ’URL, dans le titre ou positionnement dans la page - Proximité et ordre des mots-clés - Taille et styles de polices - Présence dans les méta-données (meta-keyword, meta-description) </li></ul><ul><li>Critères « off the page » : - Indice de popularité (page rank) </li></ul>
  10. 10. Moteurs de blogs <ul><li>Technorati : 56 millions de blogs « scrutés » Rech par mots-clés, ou par tags www.technorati.com </li></ul><ul><li>Blogpulse : 35 millions de blogs Rech par mots-clés sophistiquée + tendances des termes les plus discutés (trend search) + conversation tracker. www.blogpulse.com </li></ul><ul><li>Google Blog search : http://blogsearch.google.com depuis juin 2005 Rech par mots-clés + sur le titre du blog, du post, par auteur et par date. </li></ul><ul><li>Voir aussi : Ice Rocket , Blogdigger , Daypop , Pubsub , Feedster (blogs.feedster.com), Waypath… </li></ul><ul><li>Et pour les blogs francophones : Google (blogsearch.google.fr), Blog Ouaf , Allblog ( www.all-blog.com ), BlogDimension ou Retronimo </li></ul>
  11. 11. Les fils RSS (Really simple syndication, rich site summary) <ul><li>Flux de contenus gratuits en provenance de </li></ul><ul><li>sites internet éditoriaux. </li></ul><ul><li>Contiennent des titres des articles, et des liens hypertextes vers les articles. </li></ul><ul><li>Ils permettent d’être alerté en permanence sur un domaine d’actualité ou sur les nouveautés apparaissant sur un site précis. </li></ul><ul><li>Formats les plus utilisés : RSS 2.0 et Atom 1.0 </li></ul>
  12. 12. Identifier des flux RSS <ul><li>Moteurs de recherche spécialisés RSS : Feedster, EasyRSS… </li></ul><ul><li>Recherche avancée de Yahoo (choisir dans les formats RSS/XML) </li></ul><ul><li>Exalead : cliquer sur l’onglet RSS dans la liste des réponses, à partir d’une recherche </li></ul>
  13. 13. Accéder aux fils RSS <ul><li>Intégration aux navigateurs Firefox (ajouter l’adresse du flux RSS dans le marque page) ou Safari. </li></ul><ul><li>Utilisation d’un agrégateur en ligne (ex : Netvibes, Webwag, Feedreader…) www.netvibes.com </li></ul><ul><li>Options personnalisées de Google ou Yahoo (mon Yahoo) </li></ul>
  14. 14. La navigation « sociale » <ul><li>La navigation &quot;sociale&quot; consiste à exploiter des adresses de sites ou de pages repérés par d'autres internautes d'une même &quot;communauté&quot; ou &quot;réseau social </li></ul><ul><li>Social bookmarking : del.icio.us </li></ul><ul><li>« Folksonomie » : les internautes définissent eux-même les catégories de classement (tags) </li></ul><ul><li>Yoono : moteur de recherche « collaboratif » </li></ul>
  15. 15. Web invisible <ul><li>Pages non localisables et/ou non indexables par les moteurs de recherche web </li></ul><ul><li>Accéder au contenu de bases de données diversifiées </li></ul><ul><li>Exploiter le contenu des pages « à identification », ou « confidentielles » </li></ul><ul><li>Découvrir des pages peu ou mal indexées (isolées, ou d’un format « original ». </li></ul>
  16. 16. Le web invisible : comment y accéder <ul><li>Bonne connaissance des ressources. Veille sur un domaine (portails thématiques, listes de diffusion...) </li></ul><ul><li>Répertoires de « web invisible » ex : www.completeplanet.com www.invisible-web.net </li></ul><ul><li>Méta-moteurs spécialisés </li></ul>
  17. 17. Internet versus bases de données <ul><li>Intérêt d ’Internet : . Multiplicité des sources d ’information . Interactivité . Couverture internationale A utiliser pour : . Actualité immédiate . Analyse sites des entreprises . Infos sur pays . Fédérations professionnelles - portails spécialisés </li></ul><ul><li>Intérêt des bases de données : . Fiabilité de l ’information . Données à valeur ajoutée . Forme structurée A utiliser pour : . Archives de presse . Bilans entreprises . Etudes de marché </li></ul>
  18. 18. Méta-moteurs : quand les utiliser <ul><li>Les méta-moteurs « on-line » (Ixquick, Profusion...) parfois trop aléatoires. Privilégier les unitermes. </li></ul><ul><li>Les méta-moteurs « clients » (Copernic, Digimind Finder) </li></ul><ul><li>Certains méta-moteurs (Jux2, Releton…) comparent les résultats des « grands moteurs» </li></ul>
  19. 19. Avantages et inconvénients des méta-moteurs <ul><li> Permet de cumuler la puissance de plusieurs outils. </li></ul><ul><li> N’intègre pas la syntaxe de chaque moteur, </li></ul><ul><li> R écupère un nombre limité de résultat par moteur (10 premiers résultats de chaque outil) </li></ul><ul><li> R éponses pas toujours pertinentes. </li></ul><ul><li>Usage : pour une recherche large de premier niveau. </li></ul>
  20. 20. Une tendance : les méta-moteurs spécialisés <ul><li>Recherche simultanée sur des corpus spécialisés (web invisible). Mélange d’outil humain et automatique </li></ul><ul><li>Les méta-moteurs spécialisés On line : exemple www.keljob.com Clients : Copernic, Digimind Finder </li></ul><ul><li>Recherche sur des sites prédéfinis : www.goshme.com </li></ul><ul><li>Des outils personnalisables : Rollyo www.rollyo.com </li></ul>
  21. 21. De nouveaux types d’annuaires <ul><li>Les annuaires « contributifs » ou « ouverts » ex : Open Directory www.dmoz.fr </li></ul><ul><li>Les annuaires « professionnels » ex : Indexa www.indexa.fr / </li></ul><ul><li>Les annuaires de portails ex : Mediaveille www.mediaveille.com /outil/ outil.htm Objectif Grandes écoles www.objectifgrandesecoles.com </li></ul>
  22. 22. Les techniques spécifiques utilisables pour la recherche de sources (source : Armelle Thomas) Trouver des portails / sites fédérateurs Trouver des listes de liens Trouver des sites « pointant » sur une source déjà connue Trouver des sites « similaires » à une source connue
  23. 23. Identifier des portails spécialisés <ul><li>Attention à l’exhaustivité et à la mise à jour </li></ul><ul><li>Répertoires ouverts ( dmoz ) </li></ul><ul><li>Répertoires d’outils de recherche ( enfin,, beaucoup, mediaveille, Objectifs grandes écoles...) </li></ul><ul><li>Sites d’associations professionnelles, sites de référence </li></ul><ul><li>Recherche par mots clés sur moteurs </li></ul>
  24. 24. L’évaluation des sites web <ul><li>Identifier l’origine d’un site (Alexa) </li></ul><ul><li>Identifier la date de dernière mise à jour d’une page </li></ul><ul><li>Remonter dans le temps : www.archive.org </li></ul><ul><li>Identifier un nom de domaine : les annuaires WHOIS ( www.indomco.com ) </li></ul>
  25. 25. Les agents d ’alerte <ul><li>Signalent les modifications à l ’intérieur d ’une page </li></ul><ul><li>Agents d ’alerte « on line » ex : www.infominder.com </li></ul><ul><li>Agents d ’alerte « clients » ex : Kbcrawl www.kbcrawl.com Websitewatcher www.websitewatcher.com </li></ul><ul><li>Parfois, aspirateurs et agents d ’alerte ex : Wysigot www.wysigot.com </li></ul>
  26. 26. KB Crawl: surveillance de pages dynamiques
  27. 27. Automatiser une requête récurrente avec Google <ul><li>Google newsalert : veille sur l ’actualité et les pages web www.google.fr/newsalerts </li></ul><ul><li>Possibilité de transformer l’alerte e-mail en flux RSS </li></ul><ul><li>Site GoogleAlert www.googlealert.com </li></ul>
  28. 28. Les 4 principaux modes de recherche d’information (source : URFIST)
  29. 29. En guise de conclusion… les 10 règles d ’or <ul><li>Savoir questionner, choisir les bons mots-clés </li></ul><ul><li>Savoir utiliser les outils de navigation et de recherche </li></ul><ul><li>Savoir raisonner en termes de « sourcing » </li></ul><ul><li>Savoir sélectionner les bons points de repère </li></ul><ul><li>Savoir analyser </li></ul><ul><li>Savoir passer des outils aux sources, et des sources aux outils </li></ul><ul><li>Savoir se limiter dans le temps </li></ul><ul><li>Savoir rester clair sur ses objectifs </li></ul><ul><li>Savoir conjuguer recherche outils et navigation </li></ul><ul><li>Savoir être agile et « rebondir » </li></ul>

×