Ausgewählte Forschungsfragen im Bereich Suche

Ausgewählte Forschungsfragen im Bereich
Suche
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg, Department Information
dirk.lewandowski@haw-hamburg.de

Darmstadt, 15. Juni 2011

Kurzvorstellung

•  Prof. Dr. Dirk Lewandowski

•  Professor für
Information Research & Information Retrieval
an der Hochschule für Angewandte Wissenschaften
Hamburg (HAW)

•  Forschung vor allem zur Qualität von Suchmaschinen,
Nutzerverhalten, Query Understanding

1 |

Agenda

Suchmaschinenforschung an der HAW

Gibt es die Websuche eigentlich noch?

Wie kann man die Suchanfragen der Nutzer verstehen?

Wie gut sind die Ergebnisse der Suchmaschinen?

Fazit

2 | Dirk Lewandowski

Agenda





Fazit


Mission Statement

 Wir wollen den Suchprozess sowohl aus system- als auch aus
nutzerzentrierter Perspektive verstehen und aus diesem Verständnis
Empfehlungen für die Verbesserung von Suchsystemen ableiten.


Aktuelle Projekte im Bereich Suche

•  Forschungsprojekte
•  Qualität von Web-Suchmaschinen (laufend bis 2011)
•  Forschungsprojekt „Wissenschaftssuchmaschinen“ (seit WS 2008/09)
•  Query Understanding (seit 2010)
•  Search Experience (ab 2011)


Methoden

Logfile-Analyse
Heuristische
Relevanztest Evaluation

Search
Online-Umfrage
Usability-Test

Eye-Tracking
Physiologische
Untersuchung

6 |

Aktuelle Projekte (mit Studierenden) im Bereich Suche

•  Lehrprojekte
–  Verbesserung der Musiksuche (WS2010/11; Projektpartner Musicload)
–  Lokale Suchmaschinen: Eye-Tracking und Usability (WS 2009/10,
Projektpartner Deutsche Telekom)
–  Einbindung von Frage-Antwort-Diensten in die Web-Suche (WS2007/08,
Projektpartner Lycos Europe)

•  Abgeschlossene Entwicklungsprojekte (mit MA-Studierenden)
•  Suchanfragenklassifikation (in Zusammenarbeit mit T-Online)
•  Produktsuche (mit Otto)
•  Universal-Search-Konzept für die T-Online-Portalsuche


Kooperationsprojekt HAW / Telekom


Abschlussarbeiten (Auswahl)

•  Vergleichende Analyse und szenariobasierte Usability Tests zur Evaluation der
Gebrauchstauglichkeit neu gestarteter Suchmaschinen
•  Vergleich der Eyetracking-Systeme von Tobii und Interactive Minds unter
besonderer Betrachtung der Auswertung bei dynamischen Webseiten-Elementen
•  Empirische Analyse von emotionalen Reaktionen im Prozess der
Informationssuche im Web
•  Die Qualität von Retrievalergebnissen im Vergleich – Google Book Search und der
OPAC einer wissenschaftlichen Bibliothek
•  Zur Struktur der Trefferbeschreibungen in Web-Suchmaschinen und deren
Beurteilung durch den Nutzer
•  Optimierung der Suche von Nachrichten-Inhalten am Beispiel von Stern.de
•  Untersuchung zum Nutzerverhalten auf der Website SPIEGEL Wissen

Agenda





Fazit


Web search: „Always different, always the same“

AltaVista 1996

11 | http://web.archive.org/web/19961023234631/http://altavista.digital.com/

Web-Suche – was ist das eigentlich?

Idealbild

1.  Ein Index des Web wird erstellt und durchsuchbar gemacht.

2.  Die Ergebnisse werden nach objektiven Kriterien in eine Reihenfolge
gebracht.

3.  Die besten Ergebnisse werden tatsächlich auf den vorderen Plätzen gezeigt.

4.  Die Nutzer wählen kompetent aus den Ergebnissen aus.

5.  Es ist nicht möglich, sich in die Suchergebnisse einzukaufen.

12 |

Anzeigen

Nachrichten

Bilder

x

Videos

Blogbeiträge

15 |


Übertragbarkeit der Universal Search – Beispiel T-Online
Portalsuche


Viele Indices statt des einen Web-Index

•  Vielzahl von Indices
•  Web
•  News
•  Lokale Suche / Kartenbasierte Suche
•  Video
•  Shopping
•  Wissenschaftliche Inhalte

•  Teils
•  basieren diese Indices auf manuell erstellten White Lists (Bsp. News)
•  sind die Kriterien für die Aufnahme in diese Indices unklar (Bsp. Wissenschaftliche
Inhalte)
•  betreiben die Suchmaschinen eigene Angebote, die in die Inidces eingespeist
werden (Bsp. Youtube – Google Video).
17 |

Aus welchen Quellen kommen die Ergebnisse?

Beispiel Google

18 |

Kompetente Ergebnisselektionen

•  Ergebnisselektion abhängig von
•  Position des Treffers
•  Vorkommen des Treffers im „sichtbaren Bereich“
•  Darstellung/Hervorhebung des Treffers, Trefferbeschreibung
•  Einblendung in Vorschlägen während der Eingabe

19 |

x

20 | Dirk Lewandowski (Eyetracking-Studie HAW-Hamburg 2010)


Fixationen bei kartenbasierter Darstellung – Beispiel T-Online


Fazit zum Status der Websuche

•  Unsere Vorstellungen von der Web-Suche basieren weitgehend noch auf der
beschriebenen Idealvorstellung.

•  Diese Idealvorstellung wurde nie erfüllt, heute weniger denn je.

•  Suchmaschinen sind weniger denn je „neutrale Vermittler von Informationen“.

25 |

Agenda





Fazit


Hätten Sie‘s verstanden?

•  vatikan •  frauentausch
•  stockbrot •  seelenfarben
•  bmw •  berliner bank
•  fußball •  osterei
•  drehscheibe •  wgt


•  x


Die Suchintention kann sich verändern


Was kann man aus einer Suchanfrage herauslesen?

•  Genre (Bsp. Nachrichten)
•  Thema (grob)
•  Intention (informationsorientiert, navigationsorientiert, transaktionsorientiert)
•  Ziel (Aktion oder Ressource)
•  Spezifität (Bsp. „Mindestlohn“)
•  Bandbreite/Mehrdeutigkeit (Ergebnisse ausdifferenzieren)
•  Autoritätsbezug
•  Ortsbezug
•  Zeitbezug (explizit; implizit; aus dem Suchanfrage-Volumen)

33 | Dirk Lewandowski (nach Calderon-Benavides et al. 2010)

Suchanfragen im Kontext

34 |

Drei Anfragetypen

Anfragetypen nach Broder (2002)

•  Informational (informationsorientiert)
–  Nutzer möchte sich zu einem Thema informieren.
–  Ziel sind mehrere Dokumente.

•  Navigational (navigationsorientiert)
–  Ziel ist es, eine bestimmte Seite (wieder) zu finden.
–  Typisch: Suche nach Homepage („Daimler Chrysler“).
–  Ziel ist i.d.R. ein Dokument.

•  Transactional (transaktionsorientiert)
–  Ziel ist das Auffinden einer Website, auf der dann eine Transaktion stattfinden
soll.
–  Beispiele für Transaktionen: Kauf eines Produkts, Download einer Datei.

35 |

Anwendungsfälle: Konkreter vs. problemorientierter
Informationsbedarf
Anwendungsfall Konkret Problemorientiert

Websuche Ebay-Homepage Informationen über die
neue Sherlock-Holmes-
Serie der BBC

Bibliothekskatalog Ist das Buch „Information Welche Bücher gibt es zum
Retrieval“ von Stock in der Thema kollaborative
HAW-Bibliothek Suche?
vorhanden?

Online-Dating Welche Hobbies hat Wer passt zu mir?
Natalia73?

Produktsuche Was kostet der Roomba Welcher Staubsaugroboter
581? ist der beste?

36 |


Navigationsorientierte Suchanfragen anhand von Klicks
bestimmen

37 |


Transaktionsorientierte Suchanfragen anhand der Klicks
bestimmen

38 |

Einsatzmöglichkeiten von Query Understanding

•  Anfrageerweiterung
•  Generierung von Suchvorschlägen
•  Steuerung der organischen Ergebnisse
•  Steuerung der Werbung
•  Steuerung der Universal Search


Agenda





Fazit


Was soll eigentlich gemessen werden?

•  Relevanz der Ergebnisse
•  Durchschnittliche Bewertung der Suchergebnisse (Systemseite)
•  Bewertung jedes einzelnen gefundenen Treffers hinsichtlich seiner Eignung zur
Beantwortung der Suchanfrage.
•  Ergebnisse mehrerer Suchmaschinen können gemischt werden; Herkunft der
Treffer kann verschleiert werden.

•  Zufriedenheit der Nutzer mit einem Suchprozess
•  Durchschnittliche Bewertung der Suchprozesse (Nutzerseite)
•  Bewertung jeder einzelnen Suchsession.
•  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.

•  Wissenszuwachs
•  Durchschnittliche Bewertung dessen, „was hängen geblieben ist“ (Nutzerseite)
•  Bewertung des Wissenszuwachses nach einer Suchsession.
•  Jeder Nutzer kann nur eine Suchmaschine bewerten; Kenntnis der Suchmaschine.
41 |

Entscheidungen beim Design klassischer Retrievaltests

1. Welche Suchmaschine(n)?

2. Wie viele Suchanfragen?
3. Welche Suchanfragen?
4. Wie viele Ergebnisse pro Suchanfrage?

5. Wie viele Juroren?
6. Welche Juroren(gruppen)?
7. Wie viele Juroren je Suchanfrage?

8. Wie sollen Dokumente bewertet werden (Skalen)?
9. Sollen Dokumentbeschreibungen berücksichtigt werden?

10.  Mit welchen Kennzahlen soll gemessen werden?
42 |

Precision-Recall-Graph (binär) – Beispiel Websuche


Welches Nutzerverhalten kann in Retrievaltests abgebildet
werden?

•  Query-response paradigm
•  Annahme: Nutzer gibt Suchanfrage ein, prüft dann das Ergebnis.
•  Statisch; „systemorientiert“
 „Klassische“ Retrievaltests (Abfrage der „objektiven“ Trefferqualität)

•  Interaktives Retrieval
•  Annahme:
•  Recherche findet in mehreren Schritten statt.
•  Bei der Recherche handelt es sich um einen „Dialog“ zwischen Nutzer und
System.
•  Dynamisch, „nutzerorientiert“
 Nutzerstudien (Abfrage der Zufriedenheit der Nutzer)

44 |


Trefferqualität in der Nutzerstudie

„Wo ist denn nun
der Jungferstieg?“

Jungfernstieg


Tools: RAT & Search Logger

•  RAT (Relevance Assessment Tool)
•  Werkzeug zum Design und zur Durchführung klassischer Retrievaltests
•  Baukastenprinzip beim Testdesign
•  Automatische Abfrage der Treffer der bekannten Suchmaschinen

•  Search Logger (Entwicklung der Uni Tartu, Estland)
•  Werkzeug zum Protokollieren von Browserinteraktionen
•  Task-basiert

•  Ziel 2011: Zusammenführung der beiden Tools, um interaktives IR in
Suchmaschinen evaluieren zu können.

46 |

Agenda





Fazit


Fazit

•  Im Bereich Suche sind noch viele Fragen offen...

•  Es besteht eine starke Übertragbarkeit der Erkenntnisse aus der Websuche auf
andere Suchsysteme.

•  Während Einzelbereiche der Nutzer-/Suchmaschineninteraktion gut verstanden
werden, fehlt ein Gesamtverständnis des Suchprozesses.

•  Für viele Fragestellungen sind Kooperationen zwischen Forschung und
Industrie unerlässlich.

48 |

Vielen Dank für Ihre
Aufmerksamkeit.

www.bui.haw-hamburg.de/lewandowski.html

Aktuelles Buch:
Handbuch Internet-Suchmaschinen 2

E-Mail:
dirk.lewandowski@haw-hamburg.de

Ausgewählte Forschungsfragen im Bereich Suche

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (7)

Similaire à Ausgewählte Forschungsfragen im Bereich Suche

Similaire à Ausgewählte Forschungsfragen im Bereich Suche (20)

Plus de Dirk Lewandowski

Plus de Dirk Lewandowski (20)

Ausgewählte Forschungsfragen im Bereich Suche