PANORAMA DES OUTILS DE RECHERCHE WEB Journée d’étude Internet en Bibliothèque - ABF Véronique MESGUICH INFOTHEQUE POLE UNIVERSITAIRE LEONARD DE VINCI 15 décembre 2009 www.devinci.fr/info [email_address]
Difficultés liées à la recherche d ’informations sur Internet Abondance de l’information Hétérogénéité Fragmentation Manque de structuration Renouvellement continuel Multilinguisme Manque de fiabilité La nature même d’Internet Des besoins fort variés Une illusion d’exhaustivité…
Les différentes générations  de moteurs  
Outils de recherche : tendances… Regroupement  des acteurs. Simplification de la syntaxe Personnalisation   (Google Custom Search, Yahoo BOSS, Swicki,  …) Développement des outils de  partage  (web social ou « 2.0 » :  bookmarking social, wikis, réseaux sociaux, moteurs collaboratifs…) Clustering  et catégorisation automatique ( Exalead, Vivisimo…) Diffusion de l’information via des flux (formats RSS ou Atom) Moteurs multimédias ( Truveo, Blinkx, Voxalead…)
Tendances… Représentation cartographique  des résultats ( Touchgraph, Social Computing, Kartoo, Exalead Constellations,Pikko… ) Développement des moteurs verticaux ou  spécialisés ( Scirus, Google Scholar, Medworm…) Interrogation en langage naturel  (True Knowledge, Powerset) Recherche multilingue (Google Translated search) Recherche « mobile  » et « temps réel  » ( Twitter, Friendfeed) Recherche de données factuelles   ( Wolfram Alpha, Google Squared ) Moteurs spécialisés par pays  ( Yandex pour la Russie, Baidu pour la Chine..)
Recherche multimédia Nombreux moteurs audio et video  : Blinkx, Truveo, Singingfish, Midomi (reconnaissance vocale…) Technologies  « Speech to text  » Exalead : lancement de Voxalead Google Audio Indexing Recherche d’image par similarité  (Google Similar Images, Like, Cydral)
Recherche d ’information sur Internet : se méfier des idées reçues Les moteurs de recherche, même les plus puissants, n ’indexent qu’une partie du web (notion de pages dynamiques, « web invisible ») Les moteurs de recherche n ’indexent pas le web en temps réel et ne sont pas à jour L ’outil n ’est pas tout : rechercher l ’information « à la source » : portails spécialisés, portails géographiques...
Le fonctionnement des moteurs Robot d’exploration : collecte le contenu de milliard de pages web dans une base de données structurée en champs (titre, URL, liens…) Indexeur : indexation automatique des pages collectées par le robot. L’index contient tous les mots significatifs des pages Interface web : destinée à l’usager, gère l’interrogation . Formulaire de recherche et pages de consultation des résultats Algorithme de pertinence : tri informatique complexe qui permet le classement des résultats
Les principaux critères de pertinence des moteurs -  Occurrence et densité des mots-clés - Présence dans l ’URL, dans le titre ou positionnement dans la page - Proximité et ordre des mots-clés - Taille et styles de polices -  Présence dans les méta-données (meta-keywords, meta-description) balise metakeyword désormais obsolète sur Google, Yahoo et Bing Critères « off the page » :   - Indice de popularité (page rank…jusqu’à quand?)
Portrait robot d’un moteur idéal... Pertinence Interface d’interrogation Utilitaires  Classement  et visualisation Contenus Qualité, quantité mise à jour, texte & multimedias Suggestion de mots clés, Recherche booléenne, options avancées Recherche multilingue Clustering  Cartographie Résumé automatique Traduction Surveillance automatique
Add-ons Firefox pour la recherche   Customize Google  : ajoute des informations supplémentaires et supprime les informations non-demandées (publicités…) https://addons.mozilla.org/fr/firefox/addon/74 Aspator  : recherche de brevets https://addons.mozilla.org/fr/firefox/addon/3142 Domains detail  : infos sur l’origine des sites (IP, whois…) https://addons.mozilla.org/fr/firefox/addon/2166   Erreur404  : retrouver des pages disparues https://addons.mozilla.org/fr/firefox/addon/4693
La prédominance de Google Plus de 90 % de part de marché en France début 2009 (source : Xiti) 113 milliards de requêtes ont été faites dans le monde sur les moteurs de recherche en juillet 2009, dont 76 milliards pour le seul Google (source : Comscore). Les raisons du décollage : rapidité, pertinence (algorithme du page rank), simplicité (opérateur ET par défaut), orientation « pur moteur », marketing viral… Les raisons du maintien à la première place : diversification, liens sponsorisés (Adwords), bons investissements, culture d’entreprise originale…  Cf le Google Labs !
Outil de recherche personnalisé: Google Custom Search  www.google.com/coop/cse Description du moteur Saisir les adresses des sites ou pages (un par ligne)
Moteurs spécialisés (ou verticaux) Alternative à la recherche généraliste Secteurs les plus représentés : . Secteurs grand public (immobilier, tourisme…) . Secteurs transversaux (santé, finance, informatique…) Exemples: searchfinance.com, Medworm (santé), Scirus (sciences…) Avantages : moins de sources, plus de pertinence…
Méta-moteurs :quand les utiliser Les méta-moteurs « on-line » (Ixquick, Kartoo...) sont parfois trop aléatoires. De nombreux méta-moteurs en ligne ont disparu ou ont évolué vers d ’autres fonctions  A utiliser pour des termes « rares » ou au contraire, pour avoir un premier aperçu des résultats pour des termes plus généraux Les méta-moteurs comparateurs de résultats (Allplus, Jux2, Releton…) Copernic : un méta-moteur « star » dans les années 2000, mais qui n’a plus évolué depuis
Les annuaires généralistes: le déclin Sélection « manuelle » de sites classés par thèmes et sous thèmes Les annuaires « contributifs » ou « ouverts » ex : Open Directory  www.dmoz.org  Les annuaires « professionnels » ex : Indexa  http://www.indexa.fr/ Les guides ou répertoires de signets (BNF, BPI…) Le renouveau des annuaires par le bookmarking social ?
L’évaluation des sites web Identifier l’origine d’un site (Alexa) Identifier la date de dernière mise à jour d’une page Remonter dans le temps :  www.archive.org Identifier un nom de domaine  ( www. indom.com)
L’évolution de la notion de web invisible Des pages non localisables et non indexables par les moteurs Raisons techniques : pages dynamiques, caractéristiques techniques… Volonté des producteurs d’information : pages accessibles sur abonnement Quelle est la taille du web invisible ?
Approche mots-clés : du mot à la « chose » Recherche par mots-clés sur le texte intégral des pages web par moteurs ou méta-moteurs La plus répandue…..  Impose, soit en amont un travail sur les mots-clés pour bien préciser sa recherche, soit l’utilisation « en aval » de l’environnement terminologique trouvé dans les premières réponses pertinentes. Qualité inégale, succès plus facile sur des recherches « factuelles »… Approche « sources et  exploration » Identification des sources d’information les plus pertinentes par rapport à la requête, chercher sur ou à partir de ces sources Beaucoup moins répandue, implique souvent une réflexion préalable dont la majorité des internautes veut se passer (passer au concept..) ‏ Pour des recherches pros, indispensables à mener en parallèle de l’approche mots-clés
Recherche d’experts Recherche sur les sites universitaires  (Google Scholar, extraction de noms) ‏ Recherche sur les  blogs Recherche dans les  réseaux sociaux via Google Ex :  geosciences site:www.linkedin.com Recherche de  thèses :  Dissertation abstracts (monde) ou Sudoc (France) ‏ Limitation aux documents PPT  dans la recherche avancée de Google  ou recherche de documents Powerpoint via  www.slideshare.net  Moteurs de recherches de personnes   www.123people.com www.zoominfo.com www.pipl.com
Outils de recherche de blogs La blogosphère ayant tendance à se banaliser, les moteurs de recherche de blogs n’existent plus forcément en tant que tel Moteurs de recherche :  . Technorati (recherche par mot clé, par tag ou par catégories sur plus de 80 millions de blogs) . Blogpulse (recherche par mot clé, url ou « trends »  sur près de 50 millions de blogs . Google blog Search…ou Google Web Recherche dans la blogosphère francophone : Wikio  www.wikio.fr  (180.000  blogs et médias) Bligg www.bligg.com
Vers le web sémantique… Objectif :  Donner « du sens »au web, en traitant non pas du  texte en langage naturel  mais des informations formalisés . Principes techniques :  langage XML, méta-données, modèle RDF, ontologies Une ontologie  est un vocabulaire contrôlé qui décrit des situations. Il est utilisé pour des traitements automatiques Une ontologie est formée de  concepts  et de  relations,  les deux sont organisés en une structure hiérarchique, des règles d'inférence liant les concepts et ou les relations, et une définition du domaine de chacune des relations Est-ce qu’il faut vraiment  qu’un nom  veuille dire quelque chose ? Alice à travers le miroir, chap.6
Et demain ?
Merci de votre attention [email_address]

Bnf 15 Dec Véronique Mesguich

  • 1.
    PANORAMA DES OUTILSDE RECHERCHE WEB Journée d’étude Internet en Bibliothèque - ABF Véronique MESGUICH INFOTHEQUE POLE UNIVERSITAIRE LEONARD DE VINCI 15 décembre 2009 www.devinci.fr/info [email_address]
  • 2.
    Difficultés liées àla recherche d ’informations sur Internet Abondance de l’information Hétérogénéité Fragmentation Manque de structuration Renouvellement continuel Multilinguisme Manque de fiabilité La nature même d’Internet Des besoins fort variés Une illusion d’exhaustivité…
  • 3.
  • 4.
    Outils de recherche: tendances… Regroupement des acteurs. Simplification de la syntaxe Personnalisation (Google Custom Search, Yahoo BOSS, Swicki, …) Développement des outils de partage (web social ou « 2.0 » : bookmarking social, wikis, réseaux sociaux, moteurs collaboratifs…) Clustering et catégorisation automatique ( Exalead, Vivisimo…) Diffusion de l’information via des flux (formats RSS ou Atom) Moteurs multimédias ( Truveo, Blinkx, Voxalead…)
  • 5.
    Tendances… Représentation cartographique des résultats ( Touchgraph, Social Computing, Kartoo, Exalead Constellations,Pikko… ) Développement des moteurs verticaux ou spécialisés ( Scirus, Google Scholar, Medworm…) Interrogation en langage naturel (True Knowledge, Powerset) Recherche multilingue (Google Translated search) Recherche « mobile » et « temps réel » ( Twitter, Friendfeed) Recherche de données factuelles ( Wolfram Alpha, Google Squared ) Moteurs spécialisés par pays ( Yandex pour la Russie, Baidu pour la Chine..)
  • 6.
    Recherche multimédia Nombreuxmoteurs audio et video : Blinkx, Truveo, Singingfish, Midomi (reconnaissance vocale…) Technologies « Speech to text » Exalead : lancement de Voxalead Google Audio Indexing Recherche d’image par similarité (Google Similar Images, Like, Cydral)
  • 7.
    Recherche d ’information surInternet : se méfier des idées reçues Les moteurs de recherche, même les plus puissants, n ’indexent qu’une partie du web (notion de pages dynamiques, « web invisible ») Les moteurs de recherche n ’indexent pas le web en temps réel et ne sont pas à jour L ’outil n ’est pas tout : rechercher l ’information « à la source » : portails spécialisés, portails géographiques...
  • 8.
    Le fonctionnement desmoteurs Robot d’exploration : collecte le contenu de milliard de pages web dans une base de données structurée en champs (titre, URL, liens…) Indexeur : indexation automatique des pages collectées par le robot. L’index contient tous les mots significatifs des pages Interface web : destinée à l’usager, gère l’interrogation . Formulaire de recherche et pages de consultation des résultats Algorithme de pertinence : tri informatique complexe qui permet le classement des résultats
  • 9.
    Les principaux critèresde pertinence des moteurs - Occurrence et densité des mots-clés - Présence dans l ’URL, dans le titre ou positionnement dans la page - Proximité et ordre des mots-clés - Taille et styles de polices - Présence dans les méta-données (meta-keywords, meta-description) balise metakeyword désormais obsolète sur Google, Yahoo et Bing Critères « off the page » : - Indice de popularité (page rank…jusqu’à quand?)
  • 10.
    Portrait robot d’unmoteur idéal... Pertinence Interface d’interrogation Utilitaires Classement et visualisation Contenus Qualité, quantité mise à jour, texte & multimedias Suggestion de mots clés, Recherche booléenne, options avancées Recherche multilingue Clustering Cartographie Résumé automatique Traduction Surveillance automatique
  • 11.
    Add-ons Firefox pourla recherche Customize Google : ajoute des informations supplémentaires et supprime les informations non-demandées (publicités…) https://addons.mozilla.org/fr/firefox/addon/74 Aspator : recherche de brevets https://addons.mozilla.org/fr/firefox/addon/3142 Domains detail : infos sur l’origine des sites (IP, whois…) https://addons.mozilla.org/fr/firefox/addon/2166 Erreur404 : retrouver des pages disparues https://addons.mozilla.org/fr/firefox/addon/4693
  • 12.
    La prédominance deGoogle Plus de 90 % de part de marché en France début 2009 (source : Xiti) 113 milliards de requêtes ont été faites dans le monde sur les moteurs de recherche en juillet 2009, dont 76 milliards pour le seul Google (source : Comscore). Les raisons du décollage : rapidité, pertinence (algorithme du page rank), simplicité (opérateur ET par défaut), orientation « pur moteur », marketing viral… Les raisons du maintien à la première place : diversification, liens sponsorisés (Adwords), bons investissements, culture d’entreprise originale… Cf le Google Labs !
  • 13.
    Outil de recherchepersonnalisé: Google Custom Search www.google.com/coop/cse Description du moteur Saisir les adresses des sites ou pages (un par ligne)
  • 14.
    Moteurs spécialisés (ouverticaux) Alternative à la recherche généraliste Secteurs les plus représentés : . Secteurs grand public (immobilier, tourisme…) . Secteurs transversaux (santé, finance, informatique…) Exemples: searchfinance.com, Medworm (santé), Scirus (sciences…) Avantages : moins de sources, plus de pertinence…
  • 15.
    Méta-moteurs :quand lesutiliser Les méta-moteurs « on-line » (Ixquick, Kartoo...) sont parfois trop aléatoires. De nombreux méta-moteurs en ligne ont disparu ou ont évolué vers d ’autres fonctions A utiliser pour des termes « rares » ou au contraire, pour avoir un premier aperçu des résultats pour des termes plus généraux Les méta-moteurs comparateurs de résultats (Allplus, Jux2, Releton…) Copernic : un méta-moteur « star » dans les années 2000, mais qui n’a plus évolué depuis
  • 16.
    Les annuaires généralistes:le déclin Sélection « manuelle » de sites classés par thèmes et sous thèmes Les annuaires « contributifs » ou « ouverts » ex : Open Directory www.dmoz.org Les annuaires « professionnels » ex : Indexa http://www.indexa.fr/ Les guides ou répertoires de signets (BNF, BPI…) Le renouveau des annuaires par le bookmarking social ?
  • 17.
    L’évaluation des sitesweb Identifier l’origine d’un site (Alexa) Identifier la date de dernière mise à jour d’une page Remonter dans le temps : www.archive.org Identifier un nom de domaine ( www. indom.com)
  • 18.
    L’évolution de lanotion de web invisible Des pages non localisables et non indexables par les moteurs Raisons techniques : pages dynamiques, caractéristiques techniques… Volonté des producteurs d’information : pages accessibles sur abonnement Quelle est la taille du web invisible ?
  • 19.
    Approche mots-clés :du mot à la « chose » Recherche par mots-clés sur le texte intégral des pages web par moteurs ou méta-moteurs La plus répandue….. Impose, soit en amont un travail sur les mots-clés pour bien préciser sa recherche, soit l’utilisation « en aval » de l’environnement terminologique trouvé dans les premières réponses pertinentes. Qualité inégale, succès plus facile sur des recherches « factuelles »… Approche « sources et exploration » Identification des sources d’information les plus pertinentes par rapport à la requête, chercher sur ou à partir de ces sources Beaucoup moins répandue, implique souvent une réflexion préalable dont la majorité des internautes veut se passer (passer au concept..) ‏ Pour des recherches pros, indispensables à mener en parallèle de l’approche mots-clés
  • 20.
    Recherche d’experts Recherchesur les sites universitaires (Google Scholar, extraction de noms) ‏ Recherche sur les blogs Recherche dans les réseaux sociaux via Google Ex : geosciences site:www.linkedin.com Recherche de thèses : Dissertation abstracts (monde) ou Sudoc (France) ‏ Limitation aux documents PPT dans la recherche avancée de Google ou recherche de documents Powerpoint via www.slideshare.net Moteurs de recherches de personnes www.123people.com www.zoominfo.com www.pipl.com
  • 21.
    Outils de recherchede blogs La blogosphère ayant tendance à se banaliser, les moteurs de recherche de blogs n’existent plus forcément en tant que tel Moteurs de recherche : . Technorati (recherche par mot clé, par tag ou par catégories sur plus de 80 millions de blogs) . Blogpulse (recherche par mot clé, url ou « trends » sur près de 50 millions de blogs . Google blog Search…ou Google Web Recherche dans la blogosphère francophone : Wikio www.wikio.fr (180.000 blogs et médias) Bligg www.bligg.com
  • 22.
    Vers le websémantique… Objectif : Donner « du sens »au web, en traitant non pas du texte en langage naturel mais des informations formalisés . Principes techniques : langage XML, méta-données, modèle RDF, ontologies Une ontologie est un vocabulaire contrôlé qui décrit des situations. Il est utilisé pour des traitements automatiques Une ontologie est formée de concepts et de relations, les deux sont organisés en une structure hiérarchique, des règles d'inférence liant les concepts et ou les relations, et une définition du domaine de chacune des relations Est-ce qu’il faut vraiment qu’un nom veuille dire quelque chose ? Alice à travers le miroir, chap.6
  • 23.
  • 24.
    Merci de votreattention [email_address]