SlideShare une entreprise Scribd logo
1  sur  15
Télécharger pour lire hors ligne
Faculté Polytechnique



Séminaire M@rsouin 2012
Le chercheur peut-il se fier aux volumétries
   indiquées par les moteurs de recherche
   commerciaux ?
Dr Ir Robert Viseur




Brest, 24-25 mai 2012
Contexte (1/2)

   Point de départ :
   
       Démarrage d'une recherche nécessitant une mesure
       de la popularité d'entreprises, de marques, de produits
       sur Internet, utilisant les APIs de moteurs de
       recherche.
   
       Constat : problèmes dans les volumétries des résultats
       de recherche (testé avec Google).
   → Question :
   
       Peut-on se fier aux volumétries estimées par les
       moteurs de recherche ?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   2
Contexte (2/2)

   Intérêt ?
   
       Littérature professionnelle encourageant l'usage des
       APIs.
   
       De nombreuses recherches utilisent les résultats issus
       des moteurs de recherches commerciaux.
       
           Usages variés : traitement de la langue, analyse des
           sentiments (texte), analyse des performances des
           entreprises, évaluation automatique de la qualité de
           revues ou d'articles, etc.
   Cadre théorique existant :
       
           Webométrie : étude quantitative des phénomènes relatifs
           au Web (voir notamment Thelwall).
       
           Exemple d'éléments étudiés : classements et volumétries.
Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   3
Points forts et points faibles des
   moteurs commerciaux (1/2)
   Points forts :
   
       Index de grande taille.
   
       Richesse de la syntaxe d'interrogation (opérateurs).
   Points faibles :
   
       Secret des algorithmes de classements.
       
           Existence d'associations préférentielles entre sites commerciaux
           et moteurs de recherche.
   
       Biais géographiques.
   
       Interdiction des requêtes automatiques.
       
           Obligation de passer par des APIs.
           
               Passage progressif vers un modèle payant (pour tous les moteurs).
           
               Diverses restrictions d'utilisation (utilisation des données, trafic
               maximum autorisé, etc.).


Université de Mons       Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   4
Points forts et points faibles des
   moteurs commerciaux (2/2)
   Points faibles (suite) :
   
       Évolutions dans le temps.
       
           Exemple : Yahoo ! → nouvel algorithme de classement,
           évolution de la syntaxe disponible, passage au modèle
           payant, etc.
   Alternatives :
   
       Utilisation d'une méthode de prédiction des
       volumétries.
   
       Création d'index spécialisés (ex.: technologies libres
       comme Lucene, SolR, etc.).




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   5
Problème de la volumétrie

   Volumétrie : nombre de résultats estimé pour
     chaque requête.
   
       Les problèmes connus :
       
           Instabilité dans le temps (répétition de requêtes).
       
           Différences entre le nombre estimé dans la WUI et le
           nombre estimé dans l'API.
       
           Manque flagrant de fiabilité pour certaines requêtes.
           
               Exemple : « link: » sous Google.
   
       Obsolescence rapide des études pratiques compte tenu
       de la vitesse d'évolution des APIs (et plus largement
       des moteurs de recherche).
   
       Voir notamment : Mayr et Tosques, 2005 ; McCown et Nelson, 2007.

Université de Mons     Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   6
Hypothèses

   Trois hypothèses testées :
   
       1. Les requêtes complexes, ou booléennes, donnent
       des résultats conformes à la théorie des ensembles.
   
       2. La volumétrie donnée par l'API est différente de la
       volumétrie donnée par la WUI.
   
       3. La volumétrie donnée par l'API n'est pas
       proportionnelle à la volumétrie donnée par la WUI.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   7
Méthodologie

   Hypothèse 1 :
      Les rapports q1 et q2 doivent tendre vers 1.




   Hypothèse 2 :
      Rapports des volumétries (WUI et API).
   Hypothèse 3 :
      Corrélation entre volumétries (WUI et API)


   Au total : 120 requêtes.
Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   8
Résultats : Hypothèse 1
   Rapport entre les nombres de résultats obtenus et
     attendus dans le cas de requêtes booléennes.




   Résultats :
      Bing : ok ; Google : nok.
      Remarques :
          Interprétation de l'opérateur AND dans Google ?
          Attention à l'écriture de l'opérateur OR (vs or)!


Université de Mons     Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   9
Résultats : Hypothèse 2

   Rapport entre nombre de résultats estimés.




   Résultats :
   
       Nombre de résultats envoyés par l'API << WUI
       (Google).
   
       Phénomène de « Danse » sous Bing ?
   
       Comptabilisation différente dans Bing et Google ?



Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   10
Résultats : Hypothèse 3

   Corrélations entre nombre de résultats estimés.




   Résultats :
   
       Corrélations globalement fortes pour Google.
   
       Différence entre requêtes simples et composées ?




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   11
Discussion
   Apport :
      Confirmation globale des résultats de recherche antérieurs.
      Mise en évidence de nouveaux problèmes liés aux requêtes composées.
   Bing :
      Meilleure fiabilité générale comparé à Google.
      Phénomène de « Danse » ?
   Google :
      Index de tailles différentes entre API et WUI (McCown et Nelson, 2007) ?
      Différentes méthodes de comptabilisation des pages similaires ou
       dupliquées ?
      Différences explicables par le mécanisme d'analyse des requêtes entrées
       par les utilisateurs  (ex. : Cutts, 2010) ?
   Recommandations (si API nécessaire):
      Privilégier Bing (pour le moment...).
      Analyse préalable des données extraites par API avant utilisation.

Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   12
Perspectives
   Déjà fait :
   
       Fonctionnement de la dernière API Google ?
          Comparable à l'ancienne API.
      Influence du ciblage géographique sur les volumétries.
       
           Comportement différent pour Google si ciblage géographique (Web
           français vs Web mondial).
   A faire :
      Tests sur Yahoo! (après basculement sur technologie Microsoft)
      Tests sur des moteurs de recherche spécialisés (ex. : Google News).
      Mise en œuvre de jeux de données plus importants.


   Remarque :
      Mise à jour : annonce du passage de Bing au modèle payant.


Université de Mons     Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   13
Merci pour votre attention.
                                  Des questions ?




                       Cette présentation est diffusée sous licence CC-BY-ND.




Université de Mons   Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   14
Contact
   Dr Ir Robert Viseur


   Assistant @UMONS
      UMONS, Faculté Polytechnique
      Rue de Houdain, 9
      B-7000 Mons
      Mail : robert.viseur@umons.ac.be


   Guideur technologique @CETIC
      CETIC
      Rue des Frères Wright, 29/3
      B-6041 Charleroi
      Mail : robert.viseur@cetic.be


   Plus d'infos : www.robertviseur.be


Université de Mons      Dr Ir R. Viseur   |   FPMs : Service d'Économie et de Management de l'Innovation   15

Contenu connexe

Similaire à Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueRobert Viseur
 
2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...
2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...
2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...Club Alliances
 
marcusevans-conference-evolution-architecture-entreprise-programme
marcusevans-conference-evolution-architecture-entreprise-programmemarcusevans-conference-evolution-architecture-entreprise-programme
marcusevans-conference-evolution-architecture-entreprise-programmeEmmanuel Gachet
 
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...Robert Viseur
 
Présentation Voirin Club DSI EST 150217
Présentation Voirin Club DSI EST 150217Présentation Voirin Club DSI EST 150217
Présentation Voirin Club DSI EST 150217VOIRIN Consultants
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoirenoucher
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsJean-Michel Franco
 
Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013
Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013
Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013Jonathan Le Lous
 
Afterwork de la recherche : structuration de la recherche sur les usages et l...
Afterwork de la recherche : structuration de la recherche sur les usages et l...Afterwork de la recherche : structuration de la recherche sur les usages et l...
Afterwork de la recherche : structuration de la recherche sur les usages et l...La French Tech Rennes St Malo
 
Soutenance mémoire- IoT
Soutenance mémoire- IoTSoutenance mémoire- IoT
Soutenance mémoire- IoTSalma Andoh
 
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?IRSST
 
Innovations & Défis 2011 de la DSI - Capgemini
Innovations & Défis 2011 de la DSI - CapgeminiInnovations & Défis 2011 de la DSI - Capgemini
Innovations & Défis 2011 de la DSI - CapgeminiJean-François Caenen
 
Réalisation d’un projet en expérience utilisateur (6-764-15) : Introduction
Réalisation d’un projet en expérience utilisateur (6-764-15) : IntroductionRéalisation d’un projet en expérience utilisateur (6-764-15) : Introduction
Réalisation d’un projet en expérience utilisateur (6-764-15) : IntroductionPierre-Majorique Léger
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...I MT
 
NEW WORK MODES SOUSCRIPTION
NEW WORK MODES SOUSCRIPTIONNEW WORK MODES SOUSCRIPTION
NEW WORK MODES SOUSCRIPTIONcarol Benzacar
 
New Work Models - horizon 2020
New Work Models -  horizon 2020New Work Models -  horizon 2020
New Work Models - horizon 2020carol Benzacar
 
New work models souscription
New work models souscriptionNew work models souscription
New work models souscriptioncarol Benzacar
 

Similaire à Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ? (20)

Etude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en BelgiqueEtude du secteur des prestataires FLOSS en Belgique
Etude du secteur des prestataires FLOSS en Belgique
 
2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...
2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...
2011.06.24 - Cloud Infrastructure Provider - Forum des Partenaires du cloud i...
 
marcusevans-conference-evolution-architecture-entreprise-programme
marcusevans-conference-evolution-architecture-entreprise-programmemarcusevans-conference-evolution-architecture-entreprise-programme
marcusevans-conference-evolution-architecture-entreprise-programme
 
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
De l&rsquo;annuaire de sites à la recherche sociale: 15 ans d&rsquo;évol...
 
Présentation Voirin Club DSI EST 150217
Présentation Voirin Club DSI EST 150217Présentation Voirin Club DSI EST 150217
Présentation Voirin Club DSI EST 150217
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 
Gvieira cv
Gvieira cvGvieira cv
Gvieira cv
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succès
 
Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013
Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013
Formation et logiciel libre / open source : bilan de l'étude Opiiec 2013
 
Afterwork de la recherche : structuration de la recherche sur les usages et l...
Afterwork de la recherche : structuration de la recherche sur les usages et l...Afterwork de la recherche : structuration de la recherche sur les usages et l...
Afterwork de la recherche : structuration de la recherche sur les usages et l...
 
Soutenance mémoire- IoT
Soutenance mémoire- IoTSoutenance mémoire- IoT
Soutenance mémoire- IoT
 
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
Une révolution technologique à nos portes ; nos organisations sont-elles prêtes?
 
Ayachi haythem
Ayachi haythemAyachi haythem
Ayachi haythem
 
Innovations & Défis 2011 de la DSI - Capgemini
Innovations & Défis 2011 de la DSI - CapgeminiInnovations & Défis 2011 de la DSI - Capgemini
Innovations & Défis 2011 de la DSI - Capgemini
 
Réalisation d’un projet en expérience utilisateur (6-764-15) : Introduction
Réalisation d’un projet en expérience utilisateur (6-764-15) : IntroductionRéalisation d’un projet en expérience utilisateur (6-764-15) : Introduction
Réalisation d’un projet en expérience utilisateur (6-764-15) : Introduction
 
Presentation Dess Ebi
Presentation Dess EbiPresentation Dess Ebi
Presentation Dess Ebi
 
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
Colloque IMT -04/04/2019- L'IA au cœur des mutations industrielles - Introduc...
 
NEW WORK MODES SOUSCRIPTION
NEW WORK MODES SOUSCRIPTIONNEW WORK MODES SOUSCRIPTION
NEW WORK MODES SOUSCRIPTION
 
New Work Models - horizon 2020
New Work Models -  horizon 2020New Work Models -  horizon 2020
New Work Models - horizon 2020
 
New work models souscription
New work models souscriptionNew work models souscription
New work models souscription
 

Plus de Robert Viseur

La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...Robert Viseur
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big DataRobert Viseur
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libresRobert Viseur
 
Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpRobert Viseur
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsRobert Viseur
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifRobert Viseur
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for DummiesRobert Viseur
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Robert Viseur
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresRobert Viseur
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Robert Viseur
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Robert Viseur
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libresRobert Viseur
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICRobert Viseur
 
Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?Robert Viseur
 
Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)Robert Viseur
 
Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)Robert Viseur
 
Développer vos photos avec UFraw
Développer vos photos avec UFrawDévelopper vos photos avec UFraw
Développer vos photos avec UFrawRobert Viseur
 
Créer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libresCréer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libresRobert Viseur
 
Presentation of OpenNLP
Presentation of OpenNLPPresentation of OpenNLP
Presentation of OpenNLPRobert Viseur
 
Mapping of Belgian open source market
Mapping of Belgian open source marketMapping of Belgian open source market
Mapping of Belgian open source marketRobert Viseur
 

Plus de Robert Viseur (20)

La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
La PI dans les espaces de co-création et d'innovation ouverte. Propriété inte...
 
L'écosystème régional du Big Data
L'écosystème régional du Big DataL'écosystème régional du Big Data
L'écosystème régional du Big Data
 
Piloter son appareil photo numérique avec des logiciels libres
Piloter son appareil photo  numérique avec des logiciels  libresPiloter son appareil photo  numérique avec des logiciels  libres
Piloter son appareil photo numérique avec des logiciels libres
 
Convertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec GimpConvertir ses photos en N/B avec Gimp
Convertir ses photos en N/B avec Gimp
 
Pechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à MonsPechakucha (Mons) : Street Art à Mons
Pechakucha (Mons) : Street Art à Mons
 
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatifAnalyse des concepts de Fab Lab, Living Lab et Hub créatif
Analyse des concepts de Fab Lab, Living Lab et Hub créatif
 
Open Source Hardware for Dummies
Open Source Hardware for DummiesOpen Source Hardware for Dummies
Open Source Hardware for Dummies
 
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
Pratiques innovantes dans le secteur automobile: du champion de produit à l'i...
 
Hacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libresHacker son appareil photo avec des outils libres
Hacker son appareil photo avec des outils libres
 
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
Comment gérer le risque de lock-in technique en cas d'usage de services de cl...
 
Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !Hacker son appareil photo, c'est possible !
Hacker son appareil photo, c'est possible !
 
Comprendre les licences de logiciels libres
Comprendre les licences de logiciels libresComprendre les licences de logiciels libres
Comprendre les licences de logiciels libres
 
Une introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TICUne introduction à la co-création dans le domaine des TIC
Une introduction à la co-création dans le domaine des TIC
 
Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?Comment valoriser les logiciels, le matériel et les oeuvres libres ?
Comment valoriser les logiciels, le matériel et les oeuvres libres ?
 
Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)Traiter ses photos avec Gimp (21 septembre 2013)
Traiter ses photos avec Gimp (21 septembre 2013)
 
Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)Traiter ses photos avec Gimp (11 juillet 2013)
Traiter ses photos avec Gimp (11 juillet 2013)
 
Développer vos photos avec UFraw
Développer vos photos avec UFrawDévelopper vos photos avec UFraw
Développer vos photos avec UFraw
 
Créer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libresCréer des photos HDR avec des logiciels libres
Créer des photos HDR avec des logiciels libres
 
Presentation of OpenNLP
Presentation of OpenNLPPresentation of OpenNLP
Presentation of OpenNLP
 
Mapping of Belgian open source market
Mapping of Belgian open source marketMapping of Belgian open source market
Mapping of Belgian open source market
 

Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

  • 1. Faculté Polytechnique Séminaire M@rsouin 2012 Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ? Dr Ir Robert Viseur Brest, 24-25 mai 2012
  • 2. Contexte (1/2) Point de départ :  Démarrage d'une recherche nécessitant une mesure de la popularité d'entreprises, de marques, de produits sur Internet, utilisant les APIs de moteurs de recherche.  Constat : problèmes dans les volumétries des résultats de recherche (testé avec Google). → Question :  Peut-on se fier aux volumétries estimées par les moteurs de recherche ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 2
  • 3. Contexte (2/2) Intérêt ?  Littérature professionnelle encourageant l'usage des APIs.  De nombreuses recherches utilisent les résultats issus des moteurs de recherches commerciaux.  Usages variés : traitement de la langue, analyse des sentiments (texte), analyse des performances des entreprises, évaluation automatique de la qualité de revues ou d'articles, etc. Cadre théorique existant :  Webométrie : étude quantitative des phénomènes relatifs au Web (voir notamment Thelwall).  Exemple d'éléments étudiés : classements et volumétries. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 3
  • 4. Points forts et points faibles des moteurs commerciaux (1/2) Points forts :  Index de grande taille.  Richesse de la syntaxe d'interrogation (opérateurs). Points faibles :  Secret des algorithmes de classements.  Existence d'associations préférentielles entre sites commerciaux et moteurs de recherche.  Biais géographiques.  Interdiction des requêtes automatiques.  Obligation de passer par des APIs.  Passage progressif vers un modèle payant (pour tous les moteurs).  Diverses restrictions d'utilisation (utilisation des données, trafic maximum autorisé, etc.). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 4
  • 5. Points forts et points faibles des moteurs commerciaux (2/2) Points faibles (suite) :  Évolutions dans le temps.  Exemple : Yahoo ! → nouvel algorithme de classement, évolution de la syntaxe disponible, passage au modèle payant, etc. Alternatives :  Utilisation d'une méthode de prédiction des volumétries.  Création d'index spécialisés (ex.: technologies libres comme Lucene, SolR, etc.). Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 5
  • 6. Problème de la volumétrie Volumétrie : nombre de résultats estimé pour chaque requête.  Les problèmes connus :  Instabilité dans le temps (répétition de requêtes).  Différences entre le nombre estimé dans la WUI et le nombre estimé dans l'API.  Manque flagrant de fiabilité pour certaines requêtes.  Exemple : « link: » sous Google.  Obsolescence rapide des études pratiques compte tenu de la vitesse d'évolution des APIs (et plus largement des moteurs de recherche).  Voir notamment : Mayr et Tosques, 2005 ; McCown et Nelson, 2007. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 6
  • 7. Hypothèses Trois hypothèses testées :  1. Les requêtes complexes, ou booléennes, donnent des résultats conformes à la théorie des ensembles.  2. La volumétrie donnée par l'API est différente de la volumétrie donnée par la WUI.  3. La volumétrie donnée par l'API n'est pas proportionnelle à la volumétrie donnée par la WUI. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 7
  • 8. Méthodologie Hypothèse 1 :  Les rapports q1 et q2 doivent tendre vers 1. Hypothèse 2 :  Rapports des volumétries (WUI et API). Hypothèse 3 :  Corrélation entre volumétries (WUI et API) Au total : 120 requêtes. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 8
  • 9. Résultats : Hypothèse 1 Rapport entre les nombres de résultats obtenus et attendus dans le cas de requêtes booléennes. Résultats :  Bing : ok ; Google : nok.  Remarques :  Interprétation de l'opérateur AND dans Google ?  Attention à l'écriture de l'opérateur OR (vs or)! Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 9
  • 10. Résultats : Hypothèse 2 Rapport entre nombre de résultats estimés. Résultats :  Nombre de résultats envoyés par l'API << WUI (Google).  Phénomène de « Danse » sous Bing ?  Comptabilisation différente dans Bing et Google ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 10
  • 11. Résultats : Hypothèse 3 Corrélations entre nombre de résultats estimés. Résultats :  Corrélations globalement fortes pour Google.  Différence entre requêtes simples et composées ? Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 11
  • 12. Discussion Apport :  Confirmation globale des résultats de recherche antérieurs.  Mise en évidence de nouveaux problèmes liés aux requêtes composées. Bing :  Meilleure fiabilité générale comparé à Google.  Phénomène de « Danse » ? Google :  Index de tailles différentes entre API et WUI (McCown et Nelson, 2007) ?  Différentes méthodes de comptabilisation des pages similaires ou dupliquées ?  Différences explicables par le mécanisme d'analyse des requêtes entrées par les utilisateurs  (ex. : Cutts, 2010) ? Recommandations (si API nécessaire):  Privilégier Bing (pour le moment...).  Analyse préalable des données extraites par API avant utilisation. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 12
  • 13. Perspectives Déjà fait :  Fonctionnement de la dernière API Google ?  Comparable à l'ancienne API.  Influence du ciblage géographique sur les volumétries.  Comportement différent pour Google si ciblage géographique (Web français vs Web mondial). A faire :  Tests sur Yahoo! (après basculement sur technologie Microsoft)  Tests sur des moteurs de recherche spécialisés (ex. : Google News).  Mise en œuvre de jeux de données plus importants. Remarque :  Mise à jour : annonce du passage de Bing au modèle payant. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 13
  • 14. Merci pour votre attention. Des questions ? Cette présentation est diffusée sous licence CC-BY-ND. Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 14
  • 15. Contact Dr Ir Robert Viseur Assistant @UMONS  UMONS, Faculté Polytechnique  Rue de Houdain, 9  B-7000 Mons  Mail : robert.viseur@umons.ac.be Guideur technologique @CETIC  CETIC  Rue des Frères Wright, 29/3  B-6041 Charleroi  Mail : robert.viseur@cetic.be Plus d'infos : www.robertviseur.be Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 15