Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
1. Verwendung von Skalenbewertungen in der Evaluierung
von Suchmaschinen
Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de
http://www.bui.haw-hamburg.de/lewandowski.html
@Dirk_Lew
ISI 2013, 22. März 2013
6. Einleitung/Motivation
• Gewinnen wir bei Verwendung von Skalenbewertungen ein
differenzierteres Bild der Suchmaschinen als bei der Verwendung von
binären Bewertungen?
– Sind Relevanzskalen metrisch?
• Hoher Aufwand bei Suchmaschinen-Tests
– Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand
8. Stand der Forschung
• Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen
– Teils Verwendung von binären Bewertungen, teils Skalen
– Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem
relevanten Treffer (Griesbaum 2004)
• Untersuchungen zur Verwendung von Skalenbewertungen
– Keine explizite Berücksichtigung von Web-Suchmaschinen
10. Testaufbau und -durchführung
1. Bilden eines repräsentativen Suchanfragen-Samples
2. Abfrage zweier Suchmaschinen, jeweils 10 Treffer
3. Bewertung der Treffer (binär/Skala)
11. Testaufbau und -durchführung
• Datenbasis: Stichprobe aus den vollständigen Suchanfragen des
Portals T-Online.de
– Viele Millionen Suchanfragen pro Monat
– Marktanteil in Deutschland: 4% (Webhits, 2012)
– Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen
Suchmaschinen
12. Testaufbau und -durchführung
• Samplebildung
– 10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden
(à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität)
– Zufallsauswahl von 360 Suchanfragen je Gruppe
– Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert,
transaktionsorientiert)
– Verwendung von informationsorientierten Anfragen
– In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen
weniger als 100)
13. Testaufbau und -durchführung
• Abfrage der Suchmaschinen
– Automatische Abfrage der Suchmaschinen Google und Bing
– Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool
(Lewandowski & Sünkler, 2012)
• Aufbereitung der Treffer
– Durchmischung der Treffer (wg. Lerneffekten)
– Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)
14. Testaufbau und -durchführung
• Bewertung der Treffer
– Jurorengewinnung über Studentenverteiler und Social Media
– Bewertung in RAT: Relevanz binär, Skala (0-4)
– Juroren erhalten nur die Suchanfrage, keine künstlich generierten
Beschreibungen von Informationsbedürfnissen
– Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher
Aufgabenbearbeitung
20. Diskussion
• Kein gravierender Unterschied in der Bewertung der beiden
Suchmaschinen
• Empfohlen wird trotzdem die Verwendung von Skalenbewertungen
anstatt binärer Bewertungen
– Skalenniveau ist zu berücksichtigen
• Grenzen der Untersuchung
– Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide
Suchmaschinen
– Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen)
– Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen)
– Keine Berücksichtigung von Universal-Search-Ergebnissen
22. Fazit
• Solide Datenbasis mit mehr als 19.000 Relevanzurteilen
• Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer
binär oder auf einer Fünferskala bewertet werden
• „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität
der beiden Suchmaschinen
23. Vielen Dank für Ihre Aufmerksamkeit
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewandowski@haw-hamburg,de
Twitter: Dirk_Lew
http://www.bui.haw-hamburg.de/
lewandowski.html
http://www.searchstudies.org