Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Verwendung von Skalenbewertungen in der Evaluierung
von Suchmaschinen
Dirk Lewandowski
dirk.lewandowski@haw-hamburg.de
http://www.bui.haw-hamburg.de/lewandowski.html
@Dirk_Lew
ISI 2013, 22. März 2013

Gliederung
1.  Einleitung/Motivation
2.  Stand der Forschung
3.  Testaufbau und -durchführung
4.  Ergebnisse
5.  Diskussion
6.  Fazit

Einleitung/Motivation
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 0,750,710,710,670,640,620,590,580,550,550,540,530,520,520,510,500,490,490,480,48
Yahoo 0,730,690,690,680,610,620,610,600,600,600,590,580,570,560,550,540,530,530,530,52
MSN 0,580,500,510,530,520,490,490,480,470,450,440,430,420,400,390,390,380,380,370,37
Ask 0,650,600,590,560,530,530,520,520,500,500,490,480,470,470,460,460,450,450,440,44
Seekport 0,580,530,510,520,510,500,480,450,440,430,440,440,430,420,410,400,390,380,370,37
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
Precision
Number of results
Google
Yahoo
MSN
Ask
Seekport
(Lewandowski, 2008)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Google 2,54 2,19 2,14 2,04 1,93 1,86 1,77 1,72 1,63 1,59 1,59 1,53 1,49 1,45 1,42 1,38 1,35 1,35 1,32 1,32
Yahoo 2,33 2,21 2,11 2,00 1,82 1,81 1,75 1,69 1,68 1,67 1,64 1,62 1,58 1,54 1,53 1,50 1,47 1,46 1,45 1,42
MSN 1,80 1,53 1,53 1,55 1,51 1,42 1,38 1,34 1,31 1,24 1,22 1,17 1,15 1,11 1,09 1,06 1,05 1,03 1,01 0,99
Ask 1,73 1,53 1,45 1,35 1,27 1,31 1,33 1,34 1,30 1,28 1,26 1,23 1,18 1,18 1,17 1,16 1,16 1,16 1,13 1,12
Seekport 1,65 1,48 1,41 1,44 1,40 1,36 1,32 1,24 1,20 1,17 1,18 1,16 1,13 1,11 1,07 1,04 1,01 1,00 0,98 0,97
0,00
0,50
1,00
1,50
2,00
2,50
3,00
DurchschnittlichePrecision
Trefferplatz
Google
Yahoo
MSN
Ask
Seekport

•  Gewinnen wir bei Verwendung von Skalenbewertungen ein
differenzierteres Bild der Suchmaschinen als bei der Verwendung von
binären Bewertungen?
–  Sind Relevanzskalen metrisch?
•  Hoher Aufwand bei Suchmaschinen-Tests
–  Jede (zusätzlich) erhobene Bewertung erhöht den Aufwand

Stand der Forschung
•  Zahlreiche Untersuchungen zur Trefferqualität von Suchmaschinen
–  Teils Verwendung von binären Bewertungen, teils Skalen
–  Teils andere Bewertungsarten, bspw. relevant / nicht relevant / führt zu einem
relevanten Treffer (Griesbaum 2004)
•  Untersuchungen zur Verwendung von Skalenbewertungen
–  Keine explizite Berücksichtigung von Web-Suchmaschinen

Testaufbau und -durchführung
1.  Bilden eines repräsentativen Suchanfragen-Samples
2.  Abfrage zweier Suchmaschinen, jeweils 10 Treffer
3.  Bewertung der Treffer (binär/Skala)

•  Datenbasis: Stichprobe aus den vollständigen Suchanfragen des
Portals T-Online.de
–  Viele Millionen Suchanfragen pro Monat
–  Marktanteil in Deutschland: 4% (Webhits, 2012)
–  Annahme: Vergleichbare Anfragen und Verteilung wie bei anderen allgemeinen
Suchmaschinen

•  Samplebildung
–  10 Gruppen von Suchanfragen, die jeweils 10% des Anfragevolumens bilden
(à Gleichmäßige Berücksichtigung von Anfragen unterschiedlicher Popularität)
–  Zufallsauswahl von 360 Suchanfragen je Gruppe
–  Klassifizierung nach Anfragetyp (informationsorientiert, navigationsorientiert,
transaktionsorientiert)
–  Verwendung von informationsorientierten Anfragen
–  In das Sample gingen insgesamt 1.000 Suchanfragen ein (in den ersten Gruppen
weniger als 100)

•  Abfrage der Suchmaschinen
–  Automatische Abfrage der Suchmaschinen Google und Bing
–  Erfassung der Top10 Suchergebnisse mit Hilfe des Relevance Assessment Tool
(Lewandowski & Sünkler, 2012)
•  Aufbereitung der Treffer
–  Durchmischung der Treffer (wg. Lerneffekten)
–  Unkenntlichmachung der Suchmaschinen (wg. Markeneffekten)

•  Bewertung der Treffer
–  Jurorengewinnung über Studentenverteiler und Social Media
–  Bewertung in RAT: Relevanz binär, Skala (0-4)
–  Juroren erhalten nur die Suchanfrage, keine künstlich generierten
Beschreibungen von Informationsbedürfnissen
–  Automatische Zusendung von Amazon-Gutscheinen bei erfolgreicher
Aufgabenbearbeitung

Ergebnisse: Binäre Bewertungen

Ergebnisse: Top-bewertete Treffer

Diskussion
•  Kein gravierender Unterschied in der Bewertung der beiden
Suchmaschinen
•  Empfohlen wird trotzdem die Verwendung von Skalenbewertungen
anstatt binärer Bewertungen
–  Skalenniveau ist zu berücksichtigen
•  Grenzen der Untersuchung
–  Verwendung von „nackten“ Suchanfragen; betrifft allerdings beide
Suchmaschinen
–  Auswahl der Suchmaschinen (die beiden führenden Suchmaschinen)
–  Jurorenauswahl nicht kontrolliert (betrifft aber auch beide Suchmaschinen)
–  Keine Berücksichtigung von Universal-Search-Ergebnissen

Fazit
•  Solide Datenbasis mit mehr als 19.000 Relevanzurteilen
•  Keine gravierenden Unterschiede, wenn die Suchmaschinentreffer
binär oder auf einer Fünferskala bewertet werden
•  „Nebenprodukt“: Keine größeren Unterschiede in der Trefferqualität
der beiden Suchmaschinen

Vielen Dank für Ihre Aufmerksamkeit
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften
Hamburg
dirk.lewandowski@haw-hamburg,de
Twitter: Dirk_Lew
http://www.bui.haw-hamburg.de/
lewandowski.html
http://www.searchstudies.org

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen

Ähnlich wie Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen (20)

Mehr von Dirk Lewandowski

Mehr von Dirk Lewandowski (20)

Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen