SlideShare ist ein Scribd-Unternehmen logo
1 von 56
Downloaden Sie, um offline zu lesen
SMARTE ANNOTATIONEN.
            Ein Beitrag zur Evaluation
       von Empfehlungen für Annotationen

          Sandra Schön und Thomas Kurz

unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner,
      Peter M. Hofer, Katalin Lejtovicz, Marius Schebella,
Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger
Das Kompetenzzentrum für Neue Medien, Salzburg
NewMediaLab – The Next Generation (SNML-TNG)
arbeitet unter der Koordination der Salzburg Research
Forschungsges.m.b.H. daran, digitale Inhalte zu personali-
sieren, für alle auffindbar zu machen und nachhaltig zu
nutzen: Dazu werden Informationen auf der Ebene der In-
halte (Linked Content), der stukturierten Daten (Linked
Data) und der sozialen Interaktion (Linked People) ver-
knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me-
dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe-
tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit-
teln des BMWFJ, des BMVIT und des Landes Salzburg.
Homepage: www.newmedialab.at



© Salzburg NewMediaLab – The Next Generation Oktober 2011

ISBN 978-3-902448-31-6

Sandra Schön und Thomas Kurz

unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner,
Peter M. Hofer, Katalin Lejtovicz, Marius Schebella,
Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger

Smarte Annotationen.
Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.


Band 4 der Reihe „Linked Media Lab Reports“,
herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert

Verlag und Herstellung: Salzburg Research, Salzburg
Umschlaggestaltung: Daniela Gnad, Salzburg Research

Bibliografische Information der Deutschen Nationalbibliothek:

Die Deutsche Nationalbibliothek verzeichnet diese Publikation
in der Deutschen Nationalbibliografie; detaillierte bibliografische
Daten sind im Internet über http://dnb.d-nb.de abrufbar.
Vorwort
Das Kompetenzzentrum für neue Medien wurde beginnend mit dem Jahr 2000 als
Denkfabrik für innovative Konzepte und Lösungen für die österreichische Medien-
und Content-Industrie aufgebaut und bietet seitdem Technologieführern und den
Betreibern fortschrittlicher Internet-Plattformen eine Heimat zur Entwicklung
und Erprobung innovativer Informationssysteme und -architekturen. Gemeinsam
mit führenden Vertretern der Medien- und Content-Industrie wurden dabei von
Beginn an konkrete Lösungen entwickelt und erfolgreich umgesetzt.
Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia-
Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es in
der Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout im
Online-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien des
Semantic Web erstmals die Bedeutung von Inhalten auch für Computerprogram-
me begreifbar zu machen. In dieser Zeit arbeitete das Salzburg NewMediaLab an
der Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Verwendungsbe-
reich automatisch anpassen.
Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an die
Medien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkte
Medien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitaler
Informationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da-
ten und von Personen bzw. auf deren sozialen Interaktion mit den Inhalten be-
ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextes
bietet sich Unternehmen die Chance, ihre Inhalte über verschiedene Anwendun-
gen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung personali-
sierter Inhalte zu reduzieren.
Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unter
der Koordination der Salzburg Research Forschungsgesellschaft führende öster-
reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG und
Salzburger Nachrichten) und Softwarehäuser (mediamid, Semantic Web Compa-
ny, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von Forschungsein-
richtungen im Bereich der Multimedia-Technologien, des Semantic Web und der
sozialen Medien (Studiengang MultiMediaTechnology der FH Salzburg, Semantic
Technology Institut der Universität Innsbruck, Salzburg Research).
Wir hoffen, mit diesem vierten Band der „Linked Media Lab Reports“ einen gelun-
genen Einblick in die Möglichkeiten der Bewertung von Annotationsvorschlägen
und der Auswahl entsprechender Empfehlungsalgorithmen zu geben.
Georg Güntner
www.newmedialab.at
Zentrumsleiter
Oktober 2011
Inhaltsverzeichnis

  Einleitung und Hintergrund........................................................................... 7
  Annotatonen: Entstehung und Einsatz..........................................................9
    Annotatonen .......................................................................................... 9
    Ziele der Annotaton...............................................................................10
    Annotatonsformen und Kombinatonen................................................ 10
  Empfehlungssysteme und ihre Bewertung.................................................. 13
    Empfehlungen im Web........................................................................... 13
    Quellen für Empfehlungssysteme...........................................................13
    Verfahren für Empfehlungssysteme....................................................... 14
    Zielsetzungen von Empfehlungssystemen.............................................. 15
    Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen.............15
  Empfehlungssysteme für Annotatonen.......................................................19
    Quellen für Empfehlungen von Annotatonen........................................ 19
    Eingesetzte Verfahren für Empfehlungen von Annotatonen.................26
    Kombinaton von Quellen und Verfahren............................................... 27
  Kriterien für „gute“ Empfehlungen für Annotatonen.................................. 29
      Ein Beispiel: Wie gut sind diese Vorschläge?.......................................... 29
      Mögliche Kriterien für gute Empfehlungen ............................................30
  Methodische Ansätze zur Evaluaton der Qualität von
        Annotatonsvorschlägen....................................................................31
    Verfahren zur Bewertung der Empfehlungen für Annotatonen im
           Überblick..................................................................................... 31
    (a) Bewertung der einzelnen Empfehlung durch Experten.....................32
    (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung
           von Experten................................................................................33
    (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer...........34
    (d) Experimenteller Einsatz: Unterschiede in der Nutzung von
           Annotatonsvorschlägen ............................................................. 36
    (e) Experimentelle Nutzungsszenarien zur Bewertung von
           Annotatonsvorschlägen.............................................................. 37
    (f) Vergleich der Annotatonen von Experten und den Annotatonen, die
           das System vorschlagen würde.................................................... 40
    (g) Die „goldene Strategie“: Vergleich mit Standarddaten......................41
    Vergleich der Ansätze.............................................................................41
Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen
      .......................................................................................................... 43
   Begrifsähnlichkeit.................................................................................. 43
   Syntaktsche Metriken............................................................................44
   Semantsche Metriken............................................................................44
Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen.............47
  Mögliche Kennzahlen............................................................................. 47
  Anmerkung zur Bewertung von Unterschieden...................................... 48
  Diskussion.............................................................................................. 48
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen




 EINLEITUNG UND HINTERGRUND

Um Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zu
können, wird mit Annotationen gearbeitet. Um den Vorgang der Annotation zu
unterstützen – weil das Annotieren mühsam und zeitaufwändig ist – geben immer
mehr Systeme Empfehlungen für Annotationen. Für diese ersten Zeilen sollte uns
so ein System, sofern es gute Empfehlungen für Annotation gibt, das Schlagwort
„Einleitung“ geben.
In diesem Lab Report werden Ansätze zusammengetragen und vorstellt, wie man
die Qualität dieser Empfehlungen für Annotationen bewerten und messen kann.
Damit kann ein wesentlicher Beitrag zur Qualitätssicherung der Annotationen ge-
leistet werden: Je besser die Empfehlungen für Annotationen, desto besser selbst
sind schließlich die Annotationen.
In diesem Lab-Bericht wird dazu zunächst einführend geklärt, was Annotationen
und ihre Zielsetzungen sind und auch, welche Annotationsformen es gibt. Dazu
werden wir den Forschungs- und Praxistand zu folgenden Fragen beschreiben
und um eigene Ideen ergänzen. Im Vordergrund stehen dabei die folgenden Frage-
stellungen:
  – Wie bewertet man die Güte von Vorschlägen für Annotationen?
  – Wie funktionieren (allgemein) Empfehlungssysteme und wie bewertet man
    sie?
  – Wie funktionieren Empfehlungssysteme für Annotationen?
Die Klärung dieser Fragen sind die Voraussetzung dafür, die Hauptfrage klären zu
können:
  – Wie lässt sich die Qualität von Empfehlungen für Annotationen feststellen
    und messen?
Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren-
de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik in
Forschungsarbeiten zum Einsatz kommen. Zusätzlich haben wir diesen Status Quo
in einer Expertenrunde des Salzburg NewMediaLab Ende Mai 2011 diskutiert und
unsere Erfahrungen und Ansichten dazu, auch aus einer eher praktischen Per-
spektive von Archivaren und Softwarehäusern, ausgetauscht. Dieser Lab Report
stellt damit eine Basis für weitere wissenschaftliche und praktische Maßnahmen
dar.




                                                                                                  7
Einleitung und Hintergrund




8
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



 ANNOTATIONEN: ENTSTEHUNG UND EINSATZ


Annotatonen
In der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be-
deutet 'Anmerkung', 'Beifügung', 'Hinzufügung'. In diesem Sinn haben Annotatio-
nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakter
der Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, die
zwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtet
werden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert,
ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne-
ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu stören
oder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010)




                                                Abbildung 1: Handschriftliche Notizen und Annotationen.
       Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (2011-03-15)

Nicht nur auf Papier, z. B. Notizen am Rand von Büchern, wird annotiert. Im World
Wide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oder
auch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom-
men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho-
mepages oder Profile bei Facebook, annotiert werden.




                                                                                                          9
Annotatonen: Entstehung und Einsatz



Ziele der Annotaton
Es gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate-
rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab-
sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un-
terscheiden.
Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An-
notationen vor allem um
   – die Recherche der Materialien zu verbessern,
   – um gute Empfehlungen für passendes eigenes weiteres Material zu geben,
   – um die Materialien intelligent mit externen Daten und Ressourcen verknüp-
     fen zu können (z. B. mit dem Linked-Data-Ansatz) und
   – um mit Methoden des Webmonitoring das eigene Material und dessen Ent-
     wicklung beobachten und bewerten zu können.
Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig
   – für das eigene Informationsmanagement und
   – um Materialien für andere erschließbar zu machen, beispielsweise indem
     Fotos bei Facebook mit dem Namen von Kontakten versehen werden.
Darüberhinaus werden Annotationen auch für das eigene Lernen oder im Unter-
richt eingesetzt, um damit beispielsweise wesentliche Aussagen eines Textes zu
markieren oder offene Fragen zu notieren. Diese Variante steht jedoch nicht im
Fokus des Beitrags.
Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo-
tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebots
ab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei-
gen wird, entstehen Annotationen nicht zwangsläufig bewusst.

Annotatonsformen und Kombinatonen
Es gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da-
von vorgestellt.

Professionelle Klassifkaton
Um Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt.
Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte,
die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re-
cherchieren kann. Mit Hilfe von kontrollierten Vokabularen und Thesauri werden
Terme in Verbindung gebracht, so dass beispielsweise ein Text zu Skifahren dem
Bereich „Sport“ zugeordnet werden kann. In traditionellen Medienarchiven wer-


10
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


den Materialien zu Kategorien und Unterkategorien zugeordnet, welche häufig
auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten.

Freie Verschlagwortung und Social Tagging
Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder
andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu
markieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön-
nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä-
re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009).
Während die Erzeugung von traditionellen Metadaten eher einem ausgewählten
Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer
beteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit der
Klassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichen
Termen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint
& Westenthaler, 2009, 192).

Automatsche Annotaton
Neben den von Personen durchgeführten Annotationen gibt es auch automatisch
generierte Annotationen. Dazu werden automatisch aus den Texten oder Bildern
Informationen generiert. Auch können die zahlreichen (Meta-) Informationen die
im Web anfallen und gesammelt werden, und bei der Entwicklung von Annotatio-
nen berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er auf-
gerufen, wen interessiert eine Webseite?

Kombinaton der Ansätze
Nutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus-
drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi-
schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissen
der Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro-
blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist es
oft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiert
wurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma-
chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit dem
Kaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku-
mente z. B. über entsprechende Suchfunktionen nicht auffindbar.
Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werden
die drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl
& Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati-
onsextraktion) mit manuell erzeugte Metadaten durch Tagging oder Klassifikati-
on.



                                                                                                   11
Annotatonen: Entstehung und Einsatz


Beispielsweise wurde für das integrierte Projekt LIVE1 ein Prototyp entwickelt,
der versucht, die Vorteile des traditionellen Klassifizierens mit den Vorteilen des
Social Taggings zu verbinden (Güntner, Sint & Westenthaler, 2009).




1
    Live Staging of Media Events, htp://ist-live.org (2009-10-12)


12
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



 EMPFEHLUNGSSYSTEME UND IHRE BEWERTUNG

In einer Veröffentlichung zu webbasierten Empfehlungssystemen hat das Salz-
burg NewMediaLab bereits einiges zu ihrer Konzeption und den Möglichkeiten ih-
rer Evaluation zusammengetragen. Folgendes ist eine Zusammenschau aus dieser
Arbeit und gibt einen Einblick in webbasierte Empfehlungssysteme und ihre Be-
wertung (Schaffert, Bürger, Hilzensauer, Schneider, Wieden-Bischof, 2010).

Empfehlungen im Web
Wachsende Datenbestände machen es schwierig sich zu orientieren. Empfeh-
lungssysteme werden daher immer häufiger eingesetzt. Sie schlagen zum Beispiel
Produkte, Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musik-
gruppen oder potenzielle Freunde und Lebenspartner vor. Insbesondere durch
den Anwuchs von Beiträgen in Social-Media-Anwendungen sind Empfehlungssys-
teme gefragt, damit interessante Beiträge und Personen nicht „untergehen“. Emp-
fehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu
empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht
unter einem Empfehlungssystem ein System, „das einem Benutzer in einem gege-
benen Kontext aus einer gegebenen Entitätsmenge aktiv eine Teilmenge „nützli-
cher“ Elemente empfiehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen
häufig als „Recommender-Systeme“ bezeichnet.

Quellen für Empfehlungssysteme
Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Infor-
mationen über Nutzer sowie den Empfehlungselementen zur Verfügung. Bei-
spielsweise sind dies (s. Schaffert u.a. 2009, 10):
  – das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten,
  – die Kommunikations- und Netzwerkstruktur als Möglichkeit die sozialen Ge-
    gebenheiten zu erfassen und zu nutzen,
  – Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte
    oder Webseiten zu evaluieren und zu beurteilen,
  – Social Tagging als eine innovative und populäre Variante von gemeinschaft-
    licher Verschlagwortung von Dokumenten,
  – Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Me-
    tainformationen analysiert und abgeleitet werden können,
  – Metadatenformate als klassische Form von Metainformationen sowie
    schließlich
  – verknüpfte Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data).


                                                                                                  13
Empfehlungssysteme und ihre Bewertung


Bei Empfehlungssystemen wird darüberhinaus auch damit experimentiert, bei-
spielsweise Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfeh-
lungen zu verbessern (Nunes & Blanc, 2008).
Empfehlungen aufgrund der unterschiedlichen Quellen werden auch folgender-
maßen unterschieden: Explizite Empfehlungen sind Empfehlungen durch Bewer-
tungen von Nutzern, daneben gibt es verhaltensbasierte Empfehlungen durch
sonstige Aktivitäten. Nach Neumann (2009) sind mit der Nutzung dieser unter-
schiedlichen Quellen auch unterschiedliche Herausforderungen verbunden.

Verfahren für Empfehlungssysteme
Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgen-
den Verfahren oder eine Kombination von beiden genutzt:
   – Beim inhaltsbasierten Filtern (engl. „Content Based Filtering“) beruhen die
     Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden.
     Beispielsweise wird ein Buch empfohlen, weil ein Abgleich des Klappentexts
     sowie des Benutzerprofils ergeben hat, dass es ihn interessieren könnte
     (Klahold, 2009).
   – Beim kollaborativen Filtern (engl. „Collaborative Filtering“) werden Empfeh-
     lungen auf der Basis von Daten zu ähnlichen Benutzerprofilen gegeben. Bei-
     spielsweise werden hier Bücher empfohlen, die andere Nutzer mit ähnli-
     chem Benutzerprofil bereits gekauft, gelesen oder positiv bewertet haben
     (Klahold, 2009).
Ein weiteres wichtiges Beschreibungsmerkmal eines Empfehlungssystem ist es,
ob personalisierte Empfehlungen gegeben werden oder ob für jeden Nutzer die
gleichen Empfehlungen gegeben werden. Darüberhinaus gibt es auch Systeme und
Anwendungen, die unterstützen, dass Nutzer anderen Nutzern direkte (persönli-
che) Empfehlungen geben (s. Terveen & Hill, 2001; Brand-Haushofer, 2005).
Einen schnellen Einstieg in die unterschiedlichen Varianten der Empfehlungssys-
teme zeigt ein kurzer Film des Salzburg NewMediaLab: Er zeigt, auf welche unter-
schiedliche Arten man einen Süßigkeitenempfehlungsautomat konstruieren bzw.
programmieren kann (vgl. Abbildung 2).




                                         Abbildung 2: Screenshot zum Video zu Empfehlungssystemen.
                  Quelle: Salzburg NewMediaLab, 2010. http://www.vimeo.com/10231184 (2011-03-15)



14
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



Zielsetzungen von Empfehlungssystemen
Empfehlungssysteme haben die Aufgabe, Nutzern von Anwendungen Objekte vor-
zuschlagen, die für sie interessant sein können. Doch welche Ziele und Zwecke
verfolgen Betreiber eines Angebots, das ein Empfehlungssystem enthält?
Unmittelbare Zwecke, die Empfehlungssysteme erfüllen sollen, sind, dass
  – Nutzer für sie interessante, neuartige und nützliche Empfehlungen für Ex-
    perten, Produkte, Dienstleistungen, potenzielle Ehepartner, Lernpartner,
    Webseiten, usw. erhalten, und/oder
  – dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung,
    Planung von Reisen etc. erleichtert, beschleunigt und verbessert werden.
Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen darüberhinaus
verfolgen können, sind dabei:
  – mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen,
  – zufriedenere Nutzer zu erhalten,
  – sich durch besseren Service von Mitbewerbern zu unterscheiden sowie
  – höhere Umsätze und/oder Gewinne zu sichern.
Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöh-
te Umsätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die
für die Kunden auch tatsächlich interessant sind. So wird das Hauptgeschäft bei
Amazon oder dem iTunes Store nicht mehr mit den Verkaufsschlagern gemacht,
sondern mit Nischenprodukten. Diese gilt es aber zu finden, daher sind Empfeh-
lungssysteme unabdingbar (vgl. Klahold, 2009).
Strategische Ziele, die damit verfolgt werden können, sind zum Beispiel: die Nut-
zer an den eigenen Service zu binden, sie zu aktivieren und/oder ein Alleinstel-
lungsmerkmal im Vergleich mit den Mitbewerbern zu erlangen. Gleichzeitig, wenn
beispielsweise mit der Einführung von Empfehlungssystemen auch Bewertungs-
systeme eingeführt werden können, ermöglichen Empfehlungssysteme auch leich-
teres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können
Betreiber, beispielsweise in Handelsplattformen, Auswirkungen der Empfehlun-
gen von Produkten oder personalisierter Werbung analysieren und dadurch auch
Wissen über gute Produktplatzierung und Werbung gewinnen.

Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen
Wie lassen sich Empfehlungssysteme bewerten? Die Qualität einer Empfehlung
lässt sich nur dann eindeutig bewerten, wenn es anerkannte Maßstäbe und Richt-
linien für eine qualitativ hochwertige Empfehlung gibt.




                                                                                                  15
Empfehlungssysteme und ihre Bewertung


Bewertung von Empfehlungen durch Befragungen
Relativ einfach können Empfehlungssysteme bewertet werden, bei denen die kor-
rekten bzw. optimalen Lösungen eindeutig und bekannt sind. Ein Beispiel hierfür
ist eine Routenempfehlung, bei der die Qualität anhand von Kilometern oder Fahr-
zeit festgemacht werden kann. Wenn ein System die besten Empfehlungen gibt,
arbeitet es optimal.
Auch nicht eindeutige Empfehlungen verlangen nach einer Überprüfung ihrer
Qualität. Auch für sie wurden spezifische Qualitätskriterien entwickelt, um objek-
tiv ihre Brauchbarkeit zu überprüfen. Klahold (2009) geht dabei auf Möglichkei-
ten der Evaluation durch Befragungen ein (S. 37ff).
   – Eine Möglichkeit der Überprüfung ist die Bewertung der Empfehlungen im
     Hinblick auf ihre Nützlichkeit aus Nutzersicht. Allerdings sind dazu ausrei-
     chend viele Nutzer zu befragen.
   – Zudem kann das Empfehlungssystem systematisch mit Empfehlungen von
     Experten verglichen werden. Dazu müssen Experten auf Grundlage der zu
     empfehlenden Objekte Empfehlungen abgeben. Die Ähnlichkeit der Empfeh-
     lungen des Systems sowie der Empfehlungen der Experten kann wiederum
     berechnet werden und als Maßstab hergenommen werden. Eine Überein-
     stimmung von 100 Prozent ist hier die Zielgröße.

Bewertung von Algorithmen durch Analysen mit Testdaten
Bei der Entwicklung von Empfehlungssystemen gilt es häufig einen Vergleich un-
terschiedlicher Algorithmen und Verfahren vorzunehmen. Es ist dazu jedoch nicht
zwangsläufig notwendig, wie bei Klahold (2009) beschrieben, Nutzer- oder Exper-
tenbefragungen durchzuführen. Wenn beispielsweise Einschätzungen der Nutzer
über (zu empfehlende Elemente) oder ein paar Erkenntnisse über ihr Nutzerver-
halten vorliegen, ist das folgende Verfahren möglich: Man greift darauf zurück,
dass ein Empfehlungssystem „versucht, die Bewertung vorherzusagen, die der
Nutzer dem Objekt geben würde, falls er es nach der Benutzung selbst bewerten
müsste“ (Sorge, 2009, 19). Dazu berechnet man mit Hilfe der Algorithmen Bewer-
tungen von Objekten die (eigentlich) bereits bekannt sind und vergleicht das Er-
gebnis mit der tatsächlichen Bewertung.
Dieses Vorgehen wird anhand der Evaluation unterschiedlicher Empfehlungsalgo-
rithmen bei Shardanand und Maes (1995) genauer beschrieben: Ziel der Untersu-
chung war es, den besten Algorithmus für ein Empfehlungssystem für Musik aus-
zuwählen. Basis für Empfehlungen sind dabei die Nutzerbewertungen von Musik-
stücken und ein kollaboratives Filtern. Jedes Musikstück wird auf einer Skala von
1 („pass my earplugs“) bis 7 („one of my favorite few! can't live without them!!“)
bewertet. Für die Evaluation der Empfehlungsalgorithmen wurden in 1.000 Nut-
zerprofilen je 20 Prozent der bereits bewerteten Musikstücke in einem Nutzer-
profil herausgenommen und als Zielmenge bestimmt. Die übrigen 80 Prozent der


16
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


bewerteten Musikstücke wurden genommen, um daraus zu berechnen, welche
Bewertung die Stücke aufgrund des verwendeten Algorithmus in der vorher be-
stimmten Zielmenge für jeden Nutzer erhalten würden. Diese errechnete Bewer-
tung wird mit der tatsächlichen Bewertung des Benutzers verglichen. Dabei kann
untersucht (und verglichen) werden, inwieweit die Bewertungen durch die Algo-
rithmen mit den tatsächlichen abweichen: So sollte die Bewertung nicht nur im
Mittel möglichst korrekt geschätzt werden, sondern auch möglichst selten (hoch)
abweichen. Weil nicht mit jedem Algorithmus gleichermaßen für jeden Fall Werte
berechnet werden können, ist zudem zu untersuchen, wie hoch der Prozentsatz zu
schätzender Werte ist (siehe Shardanand & Maes, 1995). Auf diese Weise ist es –
vorausgesetzt, entsprechende Nutzerdaten liegen vor – sehr gut möglich (unter-
schiedliche) Algorithmen zu bewerten.

Kennzahlen für Empfehlungssysteme: Precision, Recall und Novelty
Im Bereich der Empfehlungssysteme gibt es zwei weitere Größen, die bei der Ein-
schätzung der Qualität eines Systems berechnet werden können (Herlocker u.a.,
2004). Sie werden „Precision“ und „Recall“ genannt. Precision (engl. für „Präzisi-
on“) ist dabei der Anteil der relevanten Empfehlungen an den empfohlenen Objek-
ten. Recall (engl. für „Aufruf“) ist der Anteil der empfohlenen Elemente an den re-
levanten Elementen. Anhand einer Darstellung lässt es sich leichter darstellen,
wie sich diese beiden Maßstäbe unterscheiden.




                               Abbildung 3: Grundlagen für die Berechnung von Recall und Precision.
                                      Quelle: Abbildung nach einer Darstellung in Klahold, 2009, 40.

Dazu das Berechnungsbeispiel aus Klahold (2009): „Gibt es beispielsweise 10 re-
levante Empfehlungselemente und sind unter 15 empfohlenen Elementen 5 rele-
vante, so hat Precision einen Wert von 33% und Recall einen Wert von 50%“ (S.
41). Zwar geben die beiden Maßzahlen Prozentangaben an, die eine gewisse Ex-
aktheit vorspiegeln. Da die beiden Maßzahlen jedoch wiederum auf Daten beru-
hen, die mit obigen Verfahren erfasst wurden, ist ihre Genauigkeit und Brauchbar-
keit nicht von vornherein gegeben.
Neben der Genauigkeit muss ein System auch wirklich neue und nicht einfach
nahe liegende Empfehlungen geben (Schickel-Zuber, 2007, 17): Wenn jemand den


                                                                                                       17
Empfehlungssysteme und ihre Bewertung


Kinofilm über Harry Potter und den Orden der Phönix gesehen hat, wäre es auf
den ersten Blick sinnvoll, ihm auch die ersten vier Harry-Potter-Filme zu empfeh-
len. Allerdings ist die Wahrscheinlichkeit groß, dass er sie eh schon kennt. Die
Neuartigkeit (engl. „Novelty“) einer Empfehlung zu überprüfen ist im Zweifel nur
durch Befragungen der Nutzer feststellbar. Trotzdem gibt es Algorithmen, die die
Neuartigkeit der Empfehlungen bewerten lassen (s. Schickel-Zuber, 2007, 19; er
verweist auf Equation 2.4): Die Neuartigkeit wird dabei eruiert, in dem berechnet
wird, wieviele der Empfehlungen auch in den allgemeinen Empfehlungen der
Community auftreten. Je mehr es sind, desto weniger neuartig ist erwartungsge-
mäß eine Empfehlung für einen Nutzer.

Diskussion dieser Verfahren
Die vorgestellten beiden Verfahren zur Bewertung der Güte von Empfehlungen
von webbasierten Empfehlungen beschreiben zwei Varianten, wie vorgegangen
werden kann. Prinzipiell sind beide Verfahren auch für den Einsatz für die Bewer-
tung von Annotationen einzusetzen, wie wir später zeigen werden. Allerdings gibt
es auch einige Unterschiede und Besonderheiten bei Annotationsvorschlägen.




18
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



 EMPFEHLUNGSSYSTEME FÜR ANNOTATIONEN

Empfehlungssysteme werden nicht nur für (Web-) Materialien allgemein einge-
setzt, sondern auch im Zuge der Annotation von (Web-) Materialien und Multime-
dia. Dabei werden Nutzer/innen Vorschläge für Annotationen gemacht.
Solche Empfehlungssysteme für Annotationen werden eingesetzt um:
  – den Prozess der Annotation zu beschleunigen,
  – den Prozess der Annotation zu verbessern sowie
  – die Annotationen anzureichern.
Im folgenden beschreiben wir, auf welcher Grundlage Empfehlungen für Annota-
tionen gegeben werden, welches also „Quellen“ für Empfehlungen von Annotatio-
nen sein können. Geben Systeme Empfehlungen für Annotationen oder reichern
sie Annotationen zusätzlich an spricht man regelmäßig, auch im deutschsprachi-
gen von „Enhancing“ (engl. für Verbesserung/Anreicherung).

Quellen für Empfehlungen von Annotatonen
Wir haben bereits Quellen für Empfehlungssysteme genannt, die allgemein zur
Verfügung stehen (s. Schaffert u.a. 2009, 10). Sie stehen prinzipiell auch für Emp-
fehlungen für Annotationen zur Verfügung. Einen Überblick über unterschiedliche
Quellen, die für Annotationsvorschläge herangezogen werden können, gibt Kock-
ler (2008) in seiner Diplomarbeit. Er bezieht sich dabei speziell auf Social Tagging,
die dargestellten Möglichkeiten gelten aber für Annotationen allgemein (vgl. dazu
Memmel, Kockler & Schirru, 2009). Seine Darstellung wurde adaptiert und auf An-
notationsvorschläge übertragen (siehe Abbildung 4).




                                                                                                   19
Empfehlungssysteme für Annotatonen




                                                        Abbildung 4: Quellen für Annotationsvorschläge.
                                     (in Anlehnung an Kockler, 2008 in Memmel, Kockler & Schirru, 2009)

Im Folgenden stellen wir die entsprechenden Methoden und einzelne Anwendun-
gen vor.

Metadaten als Quelle für Annotatonsempfehlungen
Metadaten können als Quelle für Annoationsempfehlungen dienen. Das Exchange-
able Image File Format, oder kurz Exif-Format, ist beispielsweise ein Standard für
Metadaten von Fotos, die mit Digitalkameras aufgenommen werden (vgl. Wikipe-
dia, 2011). Darin enthalten sind die GPS-Angaben, also der Ort der Aufnahme in
Form von GPS-Koordinaten. Luo, Yu, Joshi und Hao (2008) versuchen beispiels-
weise so, aus den GPS-Koordinaten von Fotos, den Aufnahmezeiten und weiteren
Informationen dargestellte Events zu identifizieren, also automatisch Bildern
Events zuzuordnen. Allerdings ist zu ergänzen, dass nur ein sehr kleiner Teil der
im Web gesammelten Bilder derzeit mit GPS-Koordinaten ausgestattet ist und es
sich hier noch um Forschungsarbeiten handelt, die erst zukünftig relevanter sind.

Texte als Quellen für automatsch generierte Annotatonsempfehlungen
Auch Texte können als Quelle für Annotationen genutzt werden. Unter anderem
kommen folgende Verfahren der „Information Extraction“, also Verfahren, um aus
Texten automatisch weiterführende Informationen zu erlangen, zum Einsatz. „In-
formation Extraction“ definiert sich als der selektiven Strukturierung und Kombi-


20
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


nation von impliziten oder expliziten Daten in einem oder mehreren Dokumenten.
Information Extraction benutzt dazu semantische Klassifizierungen von Informa-
tionen (vgl. Knoth, Schmidt & Smrž, 2008; Moens, 2006).
Dabei kommen semantische als auch statistische Verfahren zum Einsatz (s. Knoth,
Schmidt & Smrž, 2008): Semantische Verfahren versuchen, u. a. aus der Satzstel-
lung heraus zu erkennen, welche Bedeutung der Text hat. Statistische Verfahren
benötigen große Mengen an Text, um beispielsweise Häufigkeitsanalysen durch-
zuführen. Beide Ansätze werden vielerlei kombiniert.
Der SNML-Partner Semantic Web Company bietet mit dem Produkt „poolparty“
eine entsprechende Lösung an. Für unterschiedliche Branchen lässt sich auf der
Homepage testen (siehe Abbildung 5), dass die Kombination aus Textextraktion
und das Wissen aus kontrollierten Vokabularen zu hilfreichen Tagvorschlägen für
den exemplarischen Text zur Wirtschaftspolitik aus der Wikipedia führt (u.a.
Wirtschaftspolitik, Kosten, Einkommen, Finanzpolitik, u.a.).




                 Abbildung 5: Screenshot poolparty (Demoversion): Tags und Empfehlungen für den
                                               Wikipedia-Artikel „Wirtschaftspolitik“ [2011-07-28].
                    Quelle: Screenshot http://poolparty.punkt.at/demozone/stw_de/ [2011-07-28]


Multmediadaten als Quellen für automatsch generierte Annotatonsempfehlungen
Während es für Texte schon länger Vorschläge und Verfahren gibt, nehmen die
Bestrebungen, automatische Annotationsempfehlungen für audiovisuelle Quell-
materialien zu geben, in den letzten Jahren deutlich zu. Ein prominentes Beispiel
ist die Bilder-Suchfunktion der Suchmaschine Google: Sie wertet Bilder nach den
hauptsächlich verwendeten Farben, der Größe, der Art (Strichzeichnung) und vie-
len weiteren Aspekten automatisch aus und ermöglicht damit den Nutzern der


                                                                                                      21
Empfehlungssysteme für Annotatonen


Suchmaschine Recherchemöglichkeiten, die weit über die reine Textsuche hinaus
gehen.




                                     Abbildung 6: Screenshot der Google-Bildersuche zum Begriff „Engel“.
                                                     Links: Einschränkung auf „blau“, rechts auf „Clipart“
                                                             Quelle: http://www.google.de (2011-03-15)

Im Folgenden haben wir bei den größten offenen Foto- und Videoarchiven nach-
geschaut, ob und (wenn möglich) wie hier Empfehlungen für Annotationen gege-
ben werden. Das Ergebnis ist eindeutig: Bisher werden in diesen Systemen, zu-
mindest beim Hochladen von Fotos und Videos, bisher keine Annotationsvor-
schläge gegeben bzw. aus den Fotos und Videos heraus oder aus sonstigen Nutze-
rinformationen heraus Annotationen erstellt.
 Name      Start     Kategorie        URL             Werden Annotatio-      Wenn ja, welche?
                                                      nen vorgeschlagen?
 Buzznet   2005      Musik, Filme, buzznet.com        Ja, aber keine auto-   Fixe Tagvorschläge: Music,
                     Fotos                            matisch generier-      Fashion, Art und Pop Cul-
                                                      ten, Optionen sind     ture
                                                      vorgegeben und im-
                                                      mer gleich.
 Flickr    2002      Fotos, Videos    flickr.com      nein                   (Zuordnung zu Alben)
 Fotki     1998      Fotos, Videos    fotki.com       nein                   (Zuordnung zu Alben)
 YouTube   2005      Videos           youtube.com     nein
                                                        Tabelle 1: Bekannte offene Foto- und Videoarchive
                                                      und Vorschläge für Annotationen (beim Hochladen).
                                     Quelle: Startjahr, Nutzerzahlen und Kategorie nach www.linqia.com,
                                                                 Angaben zum Tagging: eigene Recherchen

Es gibt aber im gesamten Multimedia-Bereich zahlreiche Ansätze und Verfahren,
die Versuchen, automatisch generierte Annotationen zu erstellen.
Für Fotos ist der Lucence-Ansatz ein relativ bekanntes Verfahren, bei dem Farben
und Texturen von Fotos ausgewertet werden (Lux & Chatzichristofis, 2008). Ein
System, das mit Maschinenlernen arbeitet und relativ erfolgreiche auch Tiere und



22
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


Landschaftsstrukturen auf Fotos automatisch erkennen kann, wenn es mit ent-
sprechenden Testdaten trainiert wurde, ist der Ansatz „Supervised Multiclass La-
beling“ (Carneiro et al., 2007; vgl. Abbildung 7).




         Abbildung 7: Modellierung von semantischen Klassen von Fotografien (a) Auswertung eines Bildes,
       (b) Auswertung der Texturen von Fotos einer Klasse (mit der gleichen Beschreibung, hier: mountain)
                                                                                 (c) Vergleich mit Klassen.
                                                              Quelle: Carneiro et al., 2007; figure 1, S. 396.

Es gibt zahlreiche Spezialanwendungen für automatische Bild- und Mustererken-
nung bzw. entsprechende Annotation in Videos: Um festzustellen, wo und wie
häufig das eigene Firmenlogo in Videos auftaucht; beispielsweise als Sponsor ei-
nes Autorennens, wurde so eine eigene Anwendung entwickelt, die sich „Brand
Detector“2 bezeichnet.
Im Bereich der Musikdatenbanken hat Turnbull (2005) vier Ansätze beschrieben,
wie versucht wird, aus Musikdateien zu erkennen, welchem Genre die Musik zu-
zuordnen ist (vgl. Tabelle 2).




2
    vgl. htp://www.hs-art.com/html/products/brand_detector.html (2011-04-15)


                                                                                                                 23
Empfehlungssysteme für Annotatonen




                                     Tabelle 2: Systeme und die verwendeten Extraktionsmethoden zur
                                                                   Genre-Zuordnung von Musikstücken.
                                                                     Quelle: Turnbull (2005), Tabelle 1

Auch das Annotieren von Audio- und Videoaufzeichnungen stellt vor größere Her-
ausforderungen. So werden immer häufiger Vorlesungen aufgenommen und Stu-
dierenden zur Verfügung gestellt. Damit diese dann gezielt zu Stellen springen
können oder auch nach Begriffen recherchieren können muss das Audio- oder Vi-
deomaterial erst mit Annotationen versehen werden. Dazu werden eine Reihe un-
terschiedlicher Verfahren genutzt, zum Beispiel der Spracherkennung (Zupancic,
2006). Aktuelle Experimente an der TU Graz kombinieren hier Verfahren, indem
Texterkennungsprogramme den Text auf den aufgenommenen Folien auswerten
und als Suchbegriffe für die Spracherkennung verwenden.
Insgesamt zeigen die Recherchen, dass es eine Reihe von Anwendungen gibt, die
automatisch Annotationen erzeugen und mit diesen arbeiten, dass diese jedoch
nicht immer Nutzern zur Annotation empfohlen werden. Dies kann auch daran lie-
gen, dass die automatischen Annotationen als „perfekt“ und keiner weiteren Ana-
lyse bedürftig eingeschätzt werden. So sind bei der Größe eines Bildes keine wei-
tere Abstimmungen mehr notwendig.
Es ist also nicht so einfach, Systeme zu finden, bei denen aus Multimediadateien
automatisch generierte Vorschläge für Annotationen erfolgen. Ein Beispiel ist hier
die „Gesichtserkennung“ bei Facebook: Lädt man ein Foto bei Facebook hoch, er-
kennt Facebook automatisch Gesichter (markiert mit dem Rahmen) und schlägt
dann automatisch die Namen der Kontakte bei Facebook vor (vgl. Abbildung 8).




24
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen




               Abbildung 8: Erkennen von Gesichtern bei Facebook (und Vorschlag der Facebook-Kontakte).
                                                                     Quelle: Facebook.com (2011-03-15)


Verknüpfe Daten und Schemata als Quelle für Annotatonsempfehlungen
Thesauri, Ontologien und Linked Data können Quellen für Annotationsempfehlun-
gen sein. Im Forschungsprojekt KiWi3 wurde mit diesem Ansatz versucht, die Vor-
schläge für andere Wiki-Inhalte zu verbessern und auch semantische Empfehlun-
gen einzubauen, die auf den Tags der Nutzer des semantischen Wikis basieren
(vgl. Dolog, 2009).

Social Tagging als Quelle für Annotatonsempfehlungen
Vielfach werden (existierende) Tags für Webmaterialien Nutzern als Annotation
vorgeschlagen. Dabei werden unter anderen vorgeschlagen:
    – Tags, mit denen andere Nutzer das Material gekennzeichnet haben,
    – Tags, die man bisher verwendet hat,
    – Tags, die häufig verwendet werden oder
    – Tags, die bei ähnlichen Materialien verwendet werden.
Delicious und MisterWong sind hier, als Social-Tagging-Plattformen zu allererst
zu nennen. Nutzt man zum Beispiel Delicious und will man eine Webseite ver-
schlagworten, erhält man Vorschläge für Tags, die man bereits genutzt hat. Es ist
zu vermuten, dass diese nicht beliebig vorgeschlagen werden, sondern dass Deli-
cious hier eine Auswahl vornimmt, eventuell durch Extraktionsmethoden. Zusätz-
lich werden Tags vorgeschlagen, die besonders häufig genutzt werden und wie-
derum zur Webseite passen (siehe Abbildung 9; rechts unten „Recommended
Tags“).

3
    htp://www.kiwi-project.eu, Stand 02/2011


                                                                                                          25
Empfehlungssysteme für Annotatonen




                              Abbildung 9: Screenshot von Delicious beim Taggen der SNML-Homepage.
                                                Quelle: Delicious, htttp://newmedialab.at (2011-03-15)


Weitere Quellen für die Empfehlungen für Annotatonen
Quelle für Empfehlungen kann auch das eigene Nutzerverhalten oder auch die be-
stehenden Vernetzungen und sozialen Kontakte sein. Es wurden bereits zwei Bei-
spiele dafür genannt:
   – Bei Delicious werden Tags vorgeschlagen, die man bereits vergeben hat (vgl.
     Abbildung 9).
   – Bei Facebook werden bei Fotos Namen der eigenen Facebook-Kontakte zur
     Markierung der Fotos vorgeschlagen (vgl. Abbildung 8).
Insgesamt zeigt sich, dass oft mehrere Quellen und Verfahren kombiniert genutzt
werden, wie auch die folgenden Ausführungen zeigen.

Eingesetzte Verfahren für Empfehlungen von Annotatonen
Wie allgemein bei Empfehlungssystemen gibt es auch bei den Empfehlungen von
Annotationen zwei Verfahren: das inhaltsbasierte Filtern und das kollaborative
Filtern.
In aller Regel werden Annotationen auf Grundlage der Inhalte gegeben: Werden
Empfehlungen für Annotationen gegeben, wird in der Regel das inhaltsbasierte
Filtern eingesetzt, dabei beruhen die Empfehlungen auf den Eigenschaften der
Elemente, die empfohlen werden. Wie dargestellt kommen hier häufig Verfahren
der Datenextraktion zum Einsatz, oft wird dabei auch auf Thesauri zurückgegrif-
fen.




26
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


Es gibt aber auch Ansätze bei Empfehlungen von Annotationen, bei denen kollabo-
ratives Filtern (engl. „Collaborative Filtering“) eingesetzt wird: Es werden z. B. bei
Delicous Tags vorgeschlagen, die sehr häufig verwendet werden. Auch gibt es viel-
fach personalisierte Vorschläge („bereits verwendete Tags“).

Kombinaton von Quellen und Verfahren
Wie bei den Empfehlungssystemen allgemein setzen auch Empfehlungssysteme
für Annotationen häufig gleichzeitig auf mehrere Quellen und Verfahren um ihre
Ergebnisse zu optimieren.
Folgendes Beispiel für einen Tag-Recommender stammt aus Schaffert u.a. (2009,
50ff): Im Projekt „Interedu“4 des Salzburg NewMediaLab wurde ein System entwi-
ckelt, das das Tagging von Lernressourcen unterstützt, indem es Tagvorschläge
generiert. Dabei kommen inhaltsbasiertes als auch kollaboratives Filtern zum Ein-
satz:
    – Die Hauptkomponentenanalyse ist ein statistisches Verfahren, dass mit Hilfe
      einer Analyse von „Trainingsdaten“ Rückschlüsse auf das Vorschlagen von
      Tags geben kann: Dazu werden die Texte der Trainingsdaten in Schlüssel-
      worte zerlegt, Stoppworte gefiltert und Stammformen gebildet, dann wird
      eine Dokument-Term-Matrix angelegt und Vektoren beschrieben. Weil allein
      durch das Vorkommen eines Schlüsselwortes nicht die Relevanz gezeigt ist,
      wird mit dem TF-IDF-Verfahren (Term Frequency/Inverse Document Fre-
      quency) festgestellt, ob es vergleichsweise häufig vorkommt, also „beson-
      ders“ ist. Ziel der Hauptkomponentenanalyse ist es nun, die bestehende Ma-
      trix so in der Anzahl der Dimensionen zu reduzieren, dass alle Hauptrichtun-
      gen vertreten sind.
    – Mit KEA können Texte klassifiziert werden und sogenannte Keyphrases oder
      „Schlüsselwortketten“ in Texten erkannt werden. KEA unterstützt zwei Ar-
      ten von Klassifizierungen: die freie Klassifizierung (Schlüsselwortextrakti-
      on) sowie die eingeschränkte Klassifizierung (Kategorisierung), bei der der
      Text in eine Kategorie eingeordnet wird.
    – Auch Assoziationsregeln können zum Vorschlagen von Tags oder Schlüssel-
      worte eingesetzt werden. Wenn eine Menge von Dokumenten signifikant
      häufig mit den selben Tags oder Schlüsselworten versehen wurde, kann ein
      Benutzer von dem Wissen der Vorgänger profitieren, indem seine Tags ver-
      vollständigt werden. Das Konzept der Assoziationsregeln setzt somit voraus,
      dass schon Tags vergeben worden sind.
Neben inhaltsbasiertem Filtern wird also auch kollaboratives Filtern einge-
setzt. Andere Verfahren setzten wiederum deutlich stärker auf das Tagging-
Verhalten anderer Nutzer (s. Mishne, 2006).

4
    Partner: Salzburg Research, Educaton Highway und Punkt Netservices


                                                                                                         27
Empfehlungssysteme für Annotatonen




28
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



 KRITERIEN FÜR „GUTE“ EMPFEHLUNGEN FÜR ANNOTATIONEN

Man möchte nun also herausbekommen, ob das eine oder andere Vorgehen beim
Vorschlagen von Annotationen besser oder schlechter ist.

Ein Beispiel: Wie gut sind diese Vorschläge?
Werden Empfehlungen für Annotationen gegeben, ist nicht von vorne herein klar,
ob oder wie gut diese Annotationen sind. Am Beispiel eines Systems, das automa-
tisch Bilder nach Texturen und Merkmalen auswertet (Carneiro et al, 2007, siehe
Abbildung 10), wird deutlich, dass es nicht simpel ist zu bewerten, wie gut die
Vorschläge des Systems sind: So verwendet der menschliche Experte beim ersten
Bild links oben die Schlagworte „Himmel, Jet, Flugzeug, Rauch“ und das System
schlägt vor „Flugzeug, Jet, Rauch, Flug, Stützbalken“. Es ist schnell ersichtlich, dass
das System treffende Vorschläge macht und weniger zutreffende. Doch wie lässt
sich die Qualität genauer beschreiben?




                 Abbildung 10: Annotationsvorschläge eines Systems und Annotationen eines Experten.
                                                         Quelle: Carneiro et al., 2007; figure 7, S. 405.

Besonders wichtig ist es Aussagen zur Qualität zu erhalten, wenn unterschiedliche
Empfehlungssysteme für Annotationen verglichen werden sollen: Macht Algorith-
mus A oder Algorithmus B bessere Vorschläge für Annotationen? Hier Entschei-
dungen zu treffen ist nicht trivial.




                                                                                                            29
Kriterien für „gute“ Empfehlungen für Annotatonen



Mögliche Kriterien für gute Empfehlungen
Gute Empfehlungen für Annotationen zeichnen laut Literatur und der Diskussion
mit den SNML-Experten darin aus, dass
     –    sie, ganz allgemein gesprochen die wesentlichen Inhalte und Konzepte er-
          fassen.
Konkreter bedeutet dies unter anderem, dass diese Annotationsvorschläge
     –    von Experten genutzt werden,
     –    sie mit den Annotationen von Experten übereinstimmen,
     –    sie nicht zu allgemein sind und möglichst genau ein Material beschreiben
          und eindeutig sind,
     –    ähnliche Materialien auf ähnliche Arten und Weisen beschreiben,
     –    entsprechenden Thesauri u.ä. entsprechenden Vereinbarungen entspre-
          chen,
     –    häufig gewählt werden,
     –    ggf. personalisiert sind, also an die Bedürfnisse eines Nutzer(-kreises) an-
          gepasst sind,
     –    effektiv und im Arbeitsprozess integriert sind sowie
     –    hilfreich und brauchbar sind für weitere Services (z. B. Rechercheanfra-
          gen).
Für Praktiker/innen, insbesondere die Archivare des ORF, wurde darüberhinaus
als ein wesentliches Kriterium für gute Annotationsvorschläge ein System ge-
nannt, das lernt, also aus guten bzw. schlechten Vorschlägen lernt und entspre-
chend die Vorschläge verbessert.


Diese Überlegungen helfen bei der Entwicklung von entsprechenden Bewertungs-
verfahren.




30
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



 METHODISCHE ANSÄTZE ZUR EVALUATION DER QUALITÄT VON ANNO-
 TATIONSVORSCHLÄGEN

Im diesem Abschnitt werden mögliche Ansätze vorgestellt, wie unterschiedliche
Algorithmen und Verfahren für die Generierung von Vorschlägen für Annotatio-
nen bewertet und verglichen werden können. Es geht also darum, Handwerkszeug
und Methoden zu ermitteln, die die Auswahl und Bestimmung von besseren Algo-
rithmen zur Empfehlung von Annotationen unterstützen.
Das angestrebte Ergebnis ist also jeweils (vereinfacht) eine Aussage der Art
  – Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4
  – Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6
Ziel der Evaluation der Qualität von Empfehlungen für Annotationen soll also je-
weils eine begründete Wahl von unterschiedlichen Algorithmen für die Annotati-
onsvorschläge sein.

Verfahren zur Bewertung der Empfehlungen für Annotatonen im Über-
blick
Es gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol-
genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe-
rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität von
Empfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in-
nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten:
  – (a) Befragung von Experten zur Qualität der empfohlenen Annotationen,
  – (b) direkter Vergleich der Annotationsempfehlungen durch Befragung von
    Experten,
  – (c) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An-
    satz),
  – (d) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations-
    vorschlägen) sowie
  – (e) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor-
    schlägen.
Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv an
der Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitig
unterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis-
tierende Datensätze genutzt werden können.




                                                                                                  31
Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen


   – (f) Vergleich der Annotationen von Experten und mit den Annotationen, die
     das System vorschlagen würde, sowie
   – (g) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten.
Abschließend werden all diese Ansätze noch vergleichend dargestellt.

(a) Bewertung der einzelnen Empfehlung durch Experten
Hier können Anleihen aus Arbeiten genommen werden, bei denen die Qualität au-
tomatischer Annotationen evaluiert wurde.
Beispiel: In Tabelle 3 ist exemplarisch das Bewertungsschema einer Software zur
Genomentschlüsselung abgebildet. Experten wurden gebeten, mit dieser Hilfe festzu-
stellen, wie gut (high, general oder low) die Software hier jeweils ist.

 Evaluaton     Criteria for GO term assignment               Criteria for protein associaton
               The GO term assignment was correct or The protein mentoned in the evidence
 High          close to what a curator would choose, gi - text correctly represented the associated
               ven the evidence text.                     UniProt accession (correct species).
               The GO term assignment was in the cor-        The evidence text did not support anno-
               rect lineage, given the evidence text, but    taton to the associated UniProt accessi-
 General       was too high level (parent of the correct     on but was generally correct for the pro-
               GO term) e.g. biological_process or too       tein family or orthologs (non-human spe-
               specifc.                                      cies).
               The evidence text did not support the GO      The evidence text did not menton the
               term assignment. Note: The GO term            correct protein (e.g. for Rev7 protein (li-
 Low
               may have been correct for the protein         gand) incorrect evidence text referred to
               but the evidence text did not support it.     'Rev7 receptor') or protein family.



 Tabelle 3: Evaluationskriterien für automatische Annotationen einer Software zur Genomentschlüsselung.
                                                                       Quelle: Camon et al. 2005, Tabelle 3

Sollen mehrere Algorithmen für Annotationsvorschläge verglichen werden, müs-
sen folglich Experten gebeten werden, Annotationsvorschläge unterschiedlicher
Herkunft zu beurteilen. Im Anschluss kann dann beispielsweise berechnet wer-
den, wie hoch die mittlere Qualität der Annotationsempfehlungen beim Algorith-
mus A im Unterschied zum Algorithmus B ist.




32
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



                                                   (a) Bewertung der Empfehlung durch Experten
      Kurzbeschreibung Experten bewerten die Qualität der Annotatonen anhand von ausge -
                       wählten Kriterien (z. B. Korrektheit, Eindeutgkeit).
    Herausforderungen Für ein solches Verfahren ist es notwendig, festzulegen, was geeignete
                      und wichtge Qualitätskriterien für Annotatonen sind – dies variiert nach
                      Einsatzgebiet ggf. stark.

                         Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes
                         Tool notwendig.

                         Um zu aussagekräfigen Ergebnissen zu gelangen, die es erlauben, unter-
                         schiedliche Algorithmen zu unterscheiden, sind umfangreiche Datener-
                         hebungen notwendig. Es sollten dabei die Annotatonsvorschläge für je -
                         weils die gleichen Materialien bewertet werden.
              Chancen Bei entsprechender (kaum zu realisierender) Datenlage ein höchst ver-
                      trauenswürdiges Verfahren.
   Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits
                     satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor-
                          schlägen eingesetzt wurde.




(b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung
von Experten
Ein ähnliches Design ist die gleichzeitige Anzeige und der direkte Vergleich von
den Annotationsempfehlungen auf der Grundlage unterschiedlicher Empfehlun-
gen. Experten können hier direkt und vergleichend entscheiden, welches Vorge-
hen bessere Annotationsempfehlungen gibt.
Beispiel: Der Nutzer kann bewerten, ob ihm die Annotationsvorschläge des Verfah-
rens A oder des Verfahrens B besser gefallen (exakter sind usw.)




                                                                                                     33
Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen



                (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten
        Kurzbeschreibung Experten bewerten die Qualität der Annotatonen von zwei Algorithmen
                         anhand von ausgewählten Kriterien (z. B. Korrektheit, Eindeutgkeit) im
                         Hinblick auf die „besseren“ Annotatosvorschläge.
      Herausforderungen Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes
                        Tool notwendig.

                           Die Experten sollten dabei nicht wissen, welche Empfehlungen jeweils
                           mit welchem Verfahren entstanden sind („blindes“ Review).

                           Das Verfahren macht nur bei Materialien Sinn, bei denen die Algorith-
                           men unterschiedliche Vorschläge machen: Diese könnten auch gezielt
                           bewertet werden.
                Chancen Ökonomischer als Verfahren (a)
     Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits
                       satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor-
                            schlägen eingesetzt wurde.

(c) Optmierung von Empfehlungsalgorithmen durch die Nutzer
Wenn das System von Experten genutzt wird, kann im Vertrauen auf ihre Beurtei-
lungskompetenz auch auf folgende Weise festgestellt werden, welche Algorithmen
und Verfahren für sie besonders wertvolle Annotationsvorschläge machen:
Beispiel: Mit der ALOE-Plattform wird derzeit versucht, eine Schnittstelle zu entwi-
ckeln, die es Nutzern erlaubt, selbst die Regeln für die Erstellung der Tag-Vorschläge
zu steuern. Wie die Abbildung der derzeitigen Nutzeroberfläche zeigt (s. Abbildung
11. S. 35), kann beispielsweise vom Nutzer festgelegt werden, ob Tag-Vorschläge aus
dem Tagging-Verhalten aller ALOE-Nutzer generiert werden sollen, oder ob nur
Kontakte einbezogen werden sollen.




34
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen




      Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge.
                      Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688




                                                                                    35
Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen



                                     (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer
        Kurzbeschreibung Nutzer wählen und konfgurieren selbst im Rahmen der Systemnutzung
                         die entsprechenden Verfahren für die Annotatonsempfehlungen.
      Herausforderungen Dieses Verfahren setzt voraus, dass sie Nutzer ständig und immer wieder
                        überprüfen, ob und welche Verfahren ihnen besonders gute Annotaton -
                        vorschläge liefert und sie auch entsprechendes Wissen und Wollen mit-
                        bringen.
                        Objektv gültge Ergebnisse können so nur eingeschränkt ermitelt wer-
                        den.
                Chancen Wird ein solches Verfahren eingesetzt, können unterschiedliche Vorlie-
                        ben von Experten festgestellt werden. Durch das ofene Verfahren sind
                        so auch neuartge Einsichten möglich.
     Beispiele für den Ein- Inwieweit aus dem Einsatz von ALOE (siehe Memmel, Kockler & Schirru
                       satz (2009) auch Empfehlungen für bestmmte Verfahren abgeleitet werden,
                            ist unklar.




(d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotat-
onsvorschlägen
Sollen mehrere Empfehlungsalgorithmen miteinander verglichen werden, kann
auch das Verhalten der Nutzer in laufenden Systemen genutzt werden. Dazu müs-
sen ausgewählten Nutzergruppen Empfehlungen für Annotationen auf Grundlage
von unterschiedlichen Empfehlungsalgorithmen gegeben werden und verglichen
werden, wie häufig jeweils den Empfehlungen „Folge geleistet wird“ (Vergleichs-
gruppendesign).
Beispiel: Nutzergruppe A erhält Vorschläge für Annotationen nach dem Verfahren A,
Nutzergruppe B erhält Vorschläge für Annotationen nach dem Verfahren B. Welche
Nutzergruppe wählt mehr der Vorschläge?
Auch könnte man, sofern Nutzer gleichzeitig mehrere Empfehlungen erhalten, be-
obachten, welcher Empfehlung sie eher nachgehen und den dahinterliegenden Al-
gorithmen dafür „Punkte“ geben.
Beispiel: Der Nutzer schreibt einen Text und erhält eine Reihe von Vorschlägen für
Annotationen. Davon sind einige das Ergebnis des Verfahrens A, andere Ergebnisse
des Verfahrens B. Wählt der Nutzer mehr Vorschläge des Verfahrens A oder B?
Es ist jedoch nicht damit getan, zu bewerten wie oft die Vorschläge auch akzep-
tiert werden. Es ist auch wichtig festzustellen, welche Empfehlungen ein System
nicht gibt oder wo die Empfehlungen unzureichend, beispielsweise zu allgemein,
sind.
Beispiel: Wie in den beiden vorherigen Beispielen wird gleichzeitig bewertet, wie
viele und auch welche zusätzlichen Annotationen Nutzer machen.


36
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


Um zu bewerten, wie weit die ergänzenden Annotationen der Nutzer von den An-
notationsvorschlägen entfernt sind, sind die Hinweise auf S. 43ff hilfreich.


            (d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen
      Kurzbeschreibung Es wird ausgewertet, wie häufg Vorschläge angenommen werden bzw.
                       eigene Ergänzungen gemacht werden (und ggf. wie weit sie von den Vor -
                       schlägen abweichen)
    Herausforderungen Es ist ggf. ein eigenes Tool zu entwickeln bzw. das Tool anzupassen.
                      Es ist schwer zu sehen, warum Vorschläge nicht genommen werden (d.h.,
                      wie weit sie von einem guten Vorschlag enternt liegen).
              Chancen Ggf. kann dieses Verfahren im laufenden Betrieb eingesetzt werden und
                      so relatv einfach (bei entsprechenden Nutzerzahlen) viele Daten gesam-
                      melt werden.
   Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren in der be -
                     satz schriebenen Weise bereits zur vergleichenden Bewertung von Algorith-
                          men zur Annotatonsvorschlägen eingesetzt wurde.

                         Dass Vorschläge genutzt werden, wird jedoch gelegentlich als Indiz für
                         die Qualität von Annotatonsvorschlägen gesehen.




(e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatons-
vorschlägen
Bei den bisherigen Verfahren wurde jeweils bei der Entstehung bzw. Wahl der An -
notationsvorschläge angesetzt und aus dem Verhalten von Experten oder Nutzern
Ableitungen zur Qualität der Annotationsvorschläge gewonnen. Ein anderer An-
satz besteht in der Analyse davon, wie brauchbar Annotationen bzw. Annotations-
vorschläge für bestimmte Nutzungsszenarien sind.
Alle vorgestellten Verfahren finden auf der Ebene der einzelnen Empfehlungen
von Annotationen für Webmaterialien statt. Darüberhinaus könnte man, sofern
ein bestimmtes Empfehlungssystem für Annotationen im Einsatz ist, auch der
Ebene der Nutzung Vergleiche ziehen.
Beispiel: Man lässt Nutzer Ressourcen suchen und stoppt die Zeit, bis sie Materialien
finden die mit Hilfe von Annotationen, die mit dem Vorschlagsalgorithmus A gene-
riert wurden. Vergleichsweise wird untersucht, ob dies (schneller) mit den Materiali-
en gelingt, die mit dem Vorschlagsalgorithmus B generiert.
Denkbar ist auch, Systeme zu vergleichen, wenn bekannt ist, dass unterschiedliche
Annotationsempfehlungen im Einsatz sind.




                                                                                                     37
Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen


Beispiel: Man weiss von System A, dass es Annotationvorschläge nach dem Verfah-
ren A macht, beim System B wird das Verfahren B genutzt. Vorausgesetzt, es wird
das gleiche Material (z. B. Bücher, Musikstücke, usw.) gekennzeichnet, kann unter-
sucht werden, bei welchem System schneller (oder „besser“) recherchiert werden
kann.
In einer unveröffentlichten Studie wurde so verglichen, wie die Recherche mit Hil-
fe von Delicious (bei dem Nutzer taggen) im Vergleich zu Suchmaschinen und
Webverzeichnissen abschneidet (s. Wichowski, 2009): Morrison (2007) stellte da-
bei fest, dass Delicious hier einen knappen zweiten Platz einnimmt. Zudem stellte
er jedoch fest, dass eine Kombination der Delicous-Tags mit einem kontrollierten
Vokabular bessere Ergebnisse liefert als die Recherche in Webverzeichnissen.
Parallel dazu könnte man so ein System X, bei dem der Empfehlungsalgorithmus
Y für Annotationen eingesetzt wird, mit einem System W vergleichen, bei dem der
Empfehlungsalgorithmus Z eingesetzt wird, sofern eine Übereinstimmung der In-
halte grundsätzlich gegeben ist. Dies ist beispielsweise im Bereich von Musik-
stücken, von Buchbeschreibungen oder auch einer Best-Of-Liste von Websiten
durchaus realistisch.
Sogenannte „Ontogames“ werden entwickelt und konzipiert um Annotationen für
(oft Multimedia-) Content zu erhalten, der sonst nur schwer zu erhalten sind.
Durch mitreissende, spannende Spielszenarios werden Spieler beispielsweise auf-
gefordert möglichst schnell Schlagworte einzutippen bei denen Spielerteams mög-
lichst viele Übereinstimmungen haben (und gegen andere Teams antreten). – So-
weit zumindest kurz zusammengefasst die erste Spielidee eines „Ontogames“ wie
sie in der Gruppe um von Ahn entwickelt wurden.
Betrachtet man Ontogames, beispielsweise die Sammlung auf der Website ontoga-
me.org, fällt es nicht schwer daraus Spielideen abzuleiten, die es ermöglichen, die
Annotationsvorschläge unterschiedlicher Annotationsvorschläge „spielerisch“ be-
werten zu lassen.
Dazu eine ausführlichere Beschreibung eines Spiels: Die Idee des Spiels „Phetch“
ist es, mehr Informationen zu Bildern zu bekommen (vgl. von Ahn et al., 2006):
Das Online-Spiel ist für je drei bis fünf Spieler entwickelt. Einer der Spieler wird
zufällig als „Beschreiber“ ausgewählt, die anderen sind die „Sucher“. Der „Be-
schreiber“ erhält vom Spiel ein Bild vorgelegt, das er mit einem kurzen Text be-
schreiben soll, beispielsweise mit „ein weißes Gespenst steht auf der Brücke und
schreit“. Die Sucher, die das Bild nicht gesehen haben, müssen nun möglichst
schnell das richtige Bild mit Hilfe einer Bildersuchmaschine finden, indem sie dort
nach passenden Suchbegriffen recherchieren und sich dann für ein Bild entschei-
den. Wer als erstes das richtige Bild wählt, erhält Punkte und ist in der nächsten
Runde der „Beschreiber“. Wenn das richtige Bild gefunden wurde, erhält natürlich
auch der „Beschreiber“ Punkte. Bei folgendem Foto würden die Beschreibungen
bei Phetch folgendermaßen lauten: „halb-Mann-halb-Frau mit schwarzem Haar“



38
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen


sowie „eine abstrakte Zeichnung mit einem Mann mit einer Violine und einer Frau
mit einer Flöte“ (s. von Ahn et al., 2006).




                           Abbildung 12: Beispielabbildungen zur Beschreibung des Spieles „Phetch“.
                                                           Quelle: von Ahn et al., 2006, Abbildung 1

Mit Hilfe dieses Spiels können also gute, hilfreiche Beschreibungen für Bilder ent-
wickelt und validiert werden; durch den Spielcharakter kann dies mitunter recht
schnell gehen, so dass in kurzer Zeit eine große Zahl von Bildern beschrieben
wird. Im Vergleich mit einer Spiel-Variante (dem ESP-Game), bei der nur Schlag-
worte eingegeben werden sollen zeigt sich, dass Phetch-Beschreibungen in 98,5
Prozent der Fälle richtig identifiziert wurden, hingegen traf dies nur bei 73,5 Pro-
zent der Bilder mit ESP-Tags zu (von Ahn et al., 2006, 81).
Unter dem Schlagwort „Ontogames“ wurden wie erwähnt in den letzten Jahren
zahlreiche Ideen entwickelt, wie spielerisch Annotationen gesammelt werden
können und wie diese (siehe oben) auch verglichen und bewertet werden könn-
ten. Daraus lassen sich auch Spiele entwicklen und ableiten, die bei der Evaluation
von Annotationsvorschlägen unterstützen können.
Beispiel: In einem Spiel werden Annotationvorschläge für ein Bild angezeigt, die mit
dem Algorithmus A generiert wurden, dazu das dazugehörige Bild und drei weitere
Bilder aus einer Datenbank. Die Spieler sind aufgefordert, möglichst schnell das kor-
rekte Bild auszuwählen. In der zweiten Runde stammt bei einem neuen Bild die Be-
schreibung aus dem Algorithmus B. Die Daten werden im Hinblick darauf ausgewer-
tet, wie häufig und wie schnell die Spieler die korrekten Annotationen (je Empfeh-
lungsalgorithmus A oder B) gewählt haben.




                                                                                                       39
Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen



                  (e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatonsvorschlägen
        Kurzbeschreibung Die Qualität von Annotatonsvorschlägen kann spielerisch überprüf wer -
                         den wenn es gelingt, ein anregendes Spiel zu kreieren, durch das indirekt
                         die Qualität der Annotatonsvorschläge überprüf wird (z. B. die Spieler
                         die Vorschläge des Vorschlagsalgorithmus A erhalten systematsch mehr
                         Punkte als Spieler, die Vorschläge des Vorschlagsalgorithmus B erhalten).
      Herausforderungen Eine solche Spielidee und Anwendung muss erst entwickelt werden.
                Chancen Bei Gestaltung eines spannenden Spiels könnte es gelingen, hier relatv
                        viele und gute Daten zu erhalten.
                        Im Fokus solches Verfahren steht der „Gebrauchswert“ von Annotato -
                        nen und weniger ihre abstrakte „Qualität“.
     Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits
                       satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor-
                            schlägen eingesetzt wurde.




(f) Vergleich der Annotatonen von Experten und den Annotatonen, die
das System vorschlagen würde
Beim vorherigen Abschnitt zur Bewertung von Empfehlungssystemen (vgl. S. 16
in diesem Band) wurde bereits ein Verfahren beschrieben, das auch für Bewer-
tung von Annotationsvorschlägen eingesetzt werden kann. Es wird im folgenden
allgemein beschrieben.
Beispiel: Man nehme Ressourcen und ihre von Experten vorgenommenen Annotatio-
nen (oder eine Auswahl davon). Dann lässt man das Empfehlungssystem Annotatio-
nen für die Ressourcen vorschlagen und vergleicht diese Ergebnisse mit den tatsäch-
lichen Annotationen der Experten.
Dieses Verfahren funktioniert nur bei Systemen, die Vorschläge auf Grundlage des
inhaltsbasierten Filterns geben. Sind Empfehlungsalgorithmen die Grundlage, bei
der Nutzerdaten verwendet werden, muss es variiert werden.
Beispiel: Bei Empfehlungsalgorithmen die z. B. auf dem kollaborativen Filtern basie-
ren, kann es sinnvoll sein, nur Daten von sehr aktiven Experten zu nehmen und dann
jeweils nur für einen kleineren Teil (z. B. 10 Prozent) das System Annotationsvor-
schläge machen zu lassen. Diese werden wiederum mit den real existierenden Emp-
fehlungen verglichen.
Dieses Vorgehen wurde bereits für ein Empfehlungssystem für Musikstücke in
diesem Band skizziert (vgl. Shardanand und Maes, 1995, S. 16) genauer beschrie-
ben. Wählt man einen solchen Ansatz – vorausgesetzt, entsprechende Nutzerda-
ten liegen vor – ist es hier sehr gut möglich (unterschiedliche) Algorithmen zu be-
werten und damit „auf dem Trockenen“ Empfehlungsalgorithmen zu optimieren.



40
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



                                               (f) Vergleich der Annotatonen von Experten und
                                           den Annotatonen, die das System vorschlagen würde
      Kurzbeschreibung Man nimmt existerende Ressourcen und ihre Annotatonen und lässt
                       das Empfehlungssystem dafür Annotatonen vorschlagen. Dann werden
                       die Vorschläge mit den existerenden Annotatonen verglichen.
    Herausforderungen Man muss Daten von Nutzern auswählen, die vorbildlich annoteren. Bei
                      kollaboratvem Filtern muss ggf. eine entsprechende Stchprobe gezogen
                      werden.
              Chancen Ein Verfahren, das erlaubt im Detail und „auf dem Trockenen“ erlaubt
                      Feinabstmmungen von Algorithmen vorzunehmen. Abgesehen von der
                      notwendigen Datenaufereitung sind keine speziellen Werkzeuge zu im-
                      plementeren oder Maßnahmen zu ergreifen.
   Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits
                     satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvorschlä-
                          gen eingesetzt wurde.

                        Dieses Verfahren wurde jedoch z. B. bei der Evaluierung von Empfeh-
                        lungssystemen für Musikstücke eingesetzt (siehe Shardanand und Maes,
                        1995)

(g) Die „goldene Strategie“: Vergleich mit Standarddaten
Prinzipiell ist schließlich ein Verfahren denkbar, dass die Qualität von Empfehlun-
gen für einen Standarddatensatz errechnen lässt. Natürlich ist dies nur für Emp-
fehlungsalgorithmen denkbar, die auf inhaltsbasiertem Filtern beruhen. Bisher
nur ein Gedankenspiel ist es dann, dass es anerkannte, große Testdatensätze gibt,
die für Evaluationen und Ergebnisvergleiche immer wieder herangezogen wer-
den. Zwar gäbe es immer Einschränkungen auf bestimmte Branchen und Themen,
die in den Datensätzen im Vordergrund stehen, so eine Strategie würden aber
Benchmarks ermöglichen und Vergleiche zwischen Systemen erlauben, obwohl
sie nicht gleichzeitig in einem Untersuchungsdesign verwendet wurden.
Beispiel: Ein Entwicklerteam prüft die Qualität ihres Empfehlungsalgorithmus mit
Hilfe des etablierten Standardtestdatensatz „Golden“ und stellt fest, dass die Zahl
der passenden Empfehlungen über den bisherigen Benchmarks liegt. Sie veröffentli-
chen die Ergebnisse und die Fachwelt ist beeindruckt.

Vergleich der Ansätze
Zur besseren Übersicht werden die skizzierten möglichen Ansätze noch einmal
zusammengefasst dargestellt und verglichen.




                                                                                                     41
Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen




 Name                             Vorteil                           Nachteil
 a) Befragung von Experten       Relatv valide                     hoher Aufwand (Befragung, extra
 zur Qualität der empfohle-                                        Tool)
 nen Annotatonen
 (b) Direkter Vergleich der      Relatv valide                     hoher Aufwand (Befragung, extra
 Annotatonsempfehlungen                                            Tool, jedoch geringer als bei a)
 durch Befragung von Exper-
 ten
 (c) Optmierung von Emp-         Durch das ofene Verfahren         hoher Aufwand an das Tool
 fehlungsalgorithmen durch       neuartge Einsichten möglich       hohe Anforderung an Nutzer
 die Nutzer (ALOE-Ansatz)                                          Validität eingeschränkt
 (d) Experimenteller Einsatz: Im laufenden Betrieb möglich         Aufwand: Modifkatonen des Sys-
 Unterschiede in der Nutzung                                       tems notwendig, Wahlverhalten
 von Annotatonsvorschlägen                                         muss aufgezeichnet werden.
                                                                   Es ist schwer zu auszuwerten,
                                                                   warum Vorschläge nicht genom-
                                                                   men werden.
 (e) Experimentelle Nut-         Im Fokus steht der „Gebrauchs- Kreatvität und eigene Lösungen
 zungsszenarien zur Bewer-       wert“ von Annotatonen und      im Hinblick auf Methode und Tool
 tung von Annotatonsvor-         weniger ihre abstrakte „Quali- gefragt – ggf. sehr hoher Aufwand.
 schlägen                        tät“.
 (f) Vergleich der Annotato-     Hier können „auf dem Tro-         Es ist notwendig, ein Verfahren zu
 nen von Experten und mit        ckenen“ mehrere, auch kleine      entwickeln, dass die automatsche
 den Annotatonen, die das        Varianten des Empfehlungsal-      Bewertung der „Nähe“ von unter-
 System vorschlagen würde.       gorithmus bewertet und mit-       schiedlichen Annotatonen über-
                                 einander verglichen werden,       nimmt (vgl. nächster Abschnit).
                                 ohne dass dazu ein großer Auf-
                                 wand für Befragungen oder
                                 Toolentwicklungen notwendig
                                 ist.
 (g) Die goldene Strategie       Vergleiche von Empfehlungsal- Bisher nicht realisiert; zudem nur
 (nicht existerend)              gorithmen werden möglich,     für inhaltsbasiertes Filtern denk-
                                 auch wenn sie nicht getestet  bar.
                                 werden.




42
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen




 VORSCHLÄGE ZUR BEURTEILUNG VON NÄHE UND ABWEICHUNGEN
 VON ANNOTATIONEN

Bei einem sehr attraktiven vorgestellten Verfahren (f) fehlt die Beurteilung, ob
eine Annotation „gut oder schlecht“ ist, weil diese Einschätzung nicht von Nutze-
rinnen oder Experten vorgenommen wird. Hier stellt sich die Frage, wie diese
Nähe bewertet werden kann. Relativ einfach ist es, wenn das System identische
Annotationen vorschlägt.
Beispiel: Der Experte würde „Ananas“ als Annotation schreien, das Empfehlungssys-
tem schlägt als Annotation eines Bildes „Ananas“ vor.
Problematisch ist der weitaus häufigere Fall, dass die Vorschläge von den (ge-
wünschten) Annotationen abweichen.
Beispiel: Das Empfehlungssystem „A“ schlägt als Annotation für ein Bild „Flugzeug“
vor, das Empfehlungssystem „B“ „Jumbojet“ (vgl. S. 29 in diesem Band). Der Experte
hat jedoch als Annotation „Jet“ gewählt. Ist nun die Empfehlung des Systems A oder
B besser? Und auch: Um wieviel genauer ist die Empfehlung von System A oder B ggf.
besser?
Dieses Beispiel zeigt – zumindest ist das die Idee – dass es nicht simpel ist, eine
solche Bewertung vorzunehmen. Notwendig wäre es für die Evaluation jedoch,
diese Einschätzung automatisch vornehmen zu können.

Begrifsähnlichkeit
Ob zwei Begriffe die selbe Tatsache, oder allgemeiner, das selbe Ding beschreiben,
also semantisch gleich sind, kann durch eine Analyse des semantischen Abstands
ermittelt werden. Je ähnlicher sich die Begriffe in ihrer Bedeutung dabei sind, de-
sto geringer wird deren Abstand. In der Mathematik ist der (minimale) Abstand
zweier Punkte in einem metrischen Raum die Länge der kürzesten Verbindungsli-
nie zwischen beiden. Die Berechnung der Streckenlängen wird durch die zugehö-
rige Metrik vorgenommen. Im Fall der Bedeutungsähnlichkeit muss daher eine
passende semantische Metrik gefunden werden. Syntaktische Metriken, also Me-
triken, mit denen Aussagen über die syntaktische Ähnlichkeit getroffen werden
können, führen meist nicht oder nur in Kombination mit semantischen Distanzbe-
rechnungen zu verwertbaren Ergebnissen. Der Einsatz einer Metrik und die resul-
tierende Ergebnisgüte hängen vom Vokabular ab und müssen ggf. im Vorfeld
durch Testläufe (systematische Anwendung auf passenden Trainingsmengen und
Ergebnisanalyse) entschieden werden.




                                                                                                  43
Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen



Syntaktsche Metriken
Oft werden syntaktische Metriken in der Vorverarbeitung verwendet, um zum
Beispiel falsche oder unterschiedliche Schreibweisen zu korrigieren. Beispielhaft
für eine syntaktische Metrik erklären wir hier die sehr gebräuchliche Levenshtein
Distanz (Levenshtein, 1966). Sie ergibt sich aus der minimalen Anzahl von Schrit-
ten, die benötigt werden, um einen Begriff in den anderen überzuführen, wobei
nur die drei Grundoperationen „Einfügen“, „Löschen“ und „Vertauschen“ auf ein-
zelnen Gliedern der Zeichenkette erlaubt sind. Wie in folgendem Beispiel klar
wird, beträgt die Levenshtein Distanz der Begriffe Tier und Tor 2 (vgl. Wikipedia-
Eintrag zu Levenshtein, 2011-08-13):
     1. Tier → Toer (ersetze i durch o)
     2. Toer → Tor (lösche e)
Weitere Metriken, die für die Untersuchung syntaktischer Ähnlichkeit verwendet
werden sind u.a. die Jaro-Winkler-Distanz (Winkler, 1990), der Hamming-Abstand
(Hamming, 1950) und der Jaccard-Index (Jaccard, 1901).

Semantsche Metriken
Semantische Metriken lassen sich in zwei Gruppen einteilen: topologische und
statistische. Während einer topologischen Metriken eine oder mehrere Ontologien
(also sinnbehaftet verknüpfte Vokabulare) zu Grunde liegen, basieren statistische
Verfahren auf so genannten Textkorpi (Sammlungen von Texten).

Topologische Verfahren
Topologische Verfahren verwenden als Grundlage eine oder mehrere Ontologien.
Stark vereinfacht kann man ein Ontologie als eine Art gerichteten, gewichteten
Graphen ansehen. Die Konzepte bilden dabei die Knoten, die Verbindungen zwi-
schen den Konzepten bilden die Kanten. Die Gewichtung ergibt sich aus der se-
mantischen Bedeutung der Kante. Je nach Typ verwenden topologische Verfahren
Instanzen einer Ontologie und/oder die Ontologie selbst.
Das folgende Beispiel beschreibt kein bestimmtes Verfahren, es soll nur einen ers-
ten Einblick in die Welt der topologischen Ähnlichkeitsmessung liefern. Den Gra-
phen einer sehr einfachen Ontologie zeigt Abbildung 13. Sie beschreibt ein Sche-
ma für Personen und deren berufliche Ausrichtung. Den Kanten wurden aus Grün-
den der Übersichtlichkeit keine Namen bzw. Richtungen zugeordnet.




44
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen




                                                           Abbildung 13: Einfacher Beispielgraph.

Basierend auf der Ontologie kann man nun a) die Ähnlichkeit der ontologischen
Konzepte selbst oder b) die Ähnlichkeit verschiedener Instanzen der Ontologie
betrachten.
a) Ähnlichkeit ontologischer Konzepte
Ein einfaches Distanzmaß in einem Graphen ist das des kürzesten Weges. Es ge-
nügt, die Anzahl der Kanten zu zählen, die auf diesem Weg zwischen zwei Konzep-
ten liegen. So ergibt sich aus obigen Beispiel, dass das Konzept Maler dem Kon-
zept Musiker ähnlicher ist (Distanz 2) als dem des Politikers (Distanz 3). Auch ist
in diesem Beispiel das Konzept der Romantik in der Musik seinem literarischen
Pendant näher als dem der musischen Klassik.
b) Ähnlichkeit ontologischer Instanzen
Angenommen, es existieren drei Instanzen der obigen Ontologie: Mozart (Musiker
– Klassik), Trakl (Schriftsteller – Symbolismus) und Josef II (Politiker). Geht man
bei den Instanzen so vor, wie oben bei der konzeptionellen Berechnung, beträgt
der Abstand zwischen Mozart, Trakl und Josef II jeweils 4. Berücksichtigt man nun
zusätzlich instanzenspezifische Merkmale wie das Geburtsdatum der Personen
verändert sich dieser Abstand. Der Abstand von Mozart zu Josef II beträgt 15 Jah-
re, von Mozart und Trakl 131 Jahre. Bezieht man also das Geburtsjahr der Perso-
nen in die Berechnung der semantischen Distanz ein, ist Mozart Josef II ähnlicher
als Trakl. Berücksichtigt man zusätzlich weitere Eigenschaften, z.B. den Geburts-
ort, rücken Mozart und Trakl (beide in Salzburg geboren) wieder näher zusam-
men. Wie die Kanten einer Ontologie in die eines gewichteten Graphen umgesetzt
werden und welche Faktoren in die Gesamtberechnung einfließen, wird in diver-
sen Algorithmen unterschiedlich behandelt. Die Semantik der Relationen lässt
sich in einem solchen Model durch die Gewichtung der Kanten ausdrücken. So hat
der Pfad „Romantik (Literatur) ist verwandt zu Romantik (Musik)“ ggf. ein gerin-
geres Kantengewicht als der Pfad „Musiker ist Vertreter der Epoche Romantik“.
Beispiele für topologische Verfahren sind simGIC (Pesquita u.a., 2008), GraSM
(Couto, Silva & Coutinho, 2007) und LDSD (Passant, 2010).




                                                                                                    45
Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen


Statstsche Verfahren
Statistische Verfahren gründen auf der Analyse einer a-priori definierten Menge
von textuellen Inhalten (Textkorpus). Diese Methoden bieten den Vorteil, dass sie
bei genügend großer Trainingsmenge/-zeit für das eigentliche Berechnen der Ab-
stände wenig Zeit benötigen (im Vergleich zu z.B. topologischen Verfahren) und in
vielen Fällen ausreichend gute Ergebnisse liefern. Die Menge der statistischen
Verfahren ist sehr groß, es werden hier deshalb nur zwei Verfahren näher erläu-
tert.
a) Latent Semantic Analysis
Das Latent-Semantic-Analysis-Verfahren (LSA) beruht auf der Vermutung, dass
Begriffe mit ähnlicher Bedeutung (bzw. aus der selben Begriffswelt) in Texten nä-
her beieinander stehen als nicht sinnverwandte. Mit diesem Verfahren ist es mög-
lich, diese benachbarten Begriffe zu finden und einem Hauptkonzept (Hauptkom-
ponente) zuzuordnen. So werden beispielsweise die Begriffe PKW, Wagen und
Rostlaube dem Konzept Auto zugeordnet.
Der mathematische Hintergrund des LSA-Algorithmus basiert auf den mathemati-
schen Prinzipien Singulärwertzerlegung und Dimensionsreduktion und kann z.B.
bei Dumais (2004) genauer studiert werden.
Ein Problem des LSA ist, dass beim Hinzukommen von neuen Begriffen (also bei
einer Erweiterung des Textkorpus) die gesamte A-Priori-Berechnung wiederholt
werden muss. Auch die richtige Wahl der Dimensionsgröße kann ein Problem dar-
stellen: Ist sie zu klein, leidet die Ergebnisgüte; ist sie zu groß, kann es zu Ressour-
cenproblemen (Rechenleistung, Speicher) kommen.
b) Normalisierte Google-Distanz
Die normalisierten Google-Distanz (NGD) basiert auf der Annahme, das verwand-
te Konzepte oft zusammen im gleichen Text vorkommen. Als Korpus dient der ak-
tuelle Google Index. Der erste Schritt für die Berechnung besteht darin, die Anzahl
der Suchtreffer für die beiden Konzepte zu ermitteln. Zusätzlich wird die Anzahl
der Treffer einer Anfrage mit beiden Konzepten (mit logischem UND verbunden)
und die Gesamtanzahl der indizierten Seiten benötigt. Die NGD wird mittels der
folgenden Formel berechnet.


                                                            Abbildung 14: Normalisierte Google Distanz.
                                                                      Quelle: Cilibrasi & Vitanyi (2007)

Dabei sind x und y die beiden Begriffe, f die Funktion, die eine Suchanfrage auf die
Mächtigkeit deren Ergebnismenge abbildet, und M die Gesamtanzahl der von Goo-
gle indizierten Seiten. Weitere Informationen zu NGD finden sich in bei Couto, Sil-
va & Coutinho (2007). Weitere Beispiele für statistische Verfahren sind PMI (Bou-
ma, 2009), SOC-PMI (Islam & Inkpen, 2008) und ESA (Gabrilovich & Markovitch,
2007).

46
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



 MÖGLICHE KENNZAHLEN ZUR BEWERTUNG VON ANNOTATIONSVOR-
 SCHLÄGEN

Es wurden bereits mehrere Verfahren genannt, die bei der Bewertung von Anno-
tationsvorschlägen zum Einsatz kommen können. Ergänzend möchten wir Kenn-
zahlen beschreiben, die bei der Beurteilung hilfreich sein können. Es zeigt sich da-
bei, dass Kennzahlen wie die „Neuigkeit“ oder „Recall“ wenig Sinn machen, wenn
es um die Bewertung von Annotationvorschlägen geht. So sollte ein Buchvor-
schlag bei Amazon z.B. einem Harry-Potter-Fan nicht alte Harry-Potter-Bücher
vorschlagen sondern etwas Neues, was er (eher) noch nicht kennt – bei Annotati-
onsvorschlägen ist jedoch kein „Neuigkeitsfaktor“ erwünscht: Es macht in der Re-
gel keinen Sinn, Nutzern möglichst neuartige Annotationen vorzuschlagen.

Mögliche Kennzahlen
Im Folgenden skizzieren wir mögliche Kennzahlen, die bei der Bestimmung der
Qualität von Annotationsvorschlägen zum Einsatz kommen könnten.

Abdeckung: Anteil der Ressourcen, zu denen Annotatonvorschläge gemacht werden
können
Nicht in jedem Fall können Systeme Annotationen vorschlagen. Eine interessante
Kennzahl ist so der Anteil, zu dem ein Algorithmus überhaupt Empfehlungen be-
rechnen kann.

Anteil der Fehler bei Annotatonsvorschlägen
Manchmal ist möglich, eindeutig von „Fehlern“ bei den Annotationsvorschlägen zu
schreiben. Der mittlere Fehler und die Standardabweichung für Fehler sind hier
mögliche Kennzahlen.

Präzision
In Anlehnung an Herlocker (2004) könnte der Anteil der Annotationvorschläge,
die als korrekt und relevant eingestuft werden als „Präzision“ bezeichnet werden.

Nähe
„Daneben ist auch vorbei“ ist eine Redensart, aber es kann eventuell Sinn machen
zu bestimmen, wie „nah“ der Annotationsvorschlag an einer gewünschten Lösung
ist.




                                                                                                   47
Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen



Anmerkung zur Bewertung von Unterschieden
Das angestrebte Ergebnis aller skizzierter Verfahren ist jeweils (vereinfacht) eine
Aussage der Art
   – Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4
   – Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6
Jedoch ist ein Unterschied von Mittelwerten u.ä. nicht notwendigerweise eine ge-
eignete Grundlage für die Entscheidung für oder gegen einen bestimmten Algo-
rithmus. Je nach Umfang der Datenquelle oder Stichprobe können solche Unter-
schiede auch im Rahmen von zufälligen Schwankungen entstehen und sind nicht
notwendigerweise ein als statistisch signifikantes Indiz für einen besseren bzw.
schlechteren Empfehlungsalgorithmus zu bewerten. Zur Auswertung und Inter-
pretation solcher Daten, beispielsweise Mittelwertunterschieden, ist dabei auf
Verfahren wie den T-Test bzw. auf die allgemeine statistische Methodenliteratur
zu verweisen (z. B. Bortz & Döring, 2006).

Diskussion
Bei unseren internen Diskussionen zeigte sich, dass die dargestellten Optionen für
Kennzahlen nicht für jeden Experten sinnvoll erschienen bzw. innerhalb des Salz-
burg NewMediaLabs deutlich unterschiedliche Abwägungen getroffen werden.
Während die Forscher/innen eher klassische wissenschaftliche Gütekriterien ei-
nes Empfehlungssystem erheben möchten und dabei auch einen möglichst hohen
durchschnittlichen Wert erhalten wollen, haben die Archivare deutlich andere Be-
dürfnisse: Ein Empfehlungssystem, das im Mittel „passable“ Empfehlungen gibt,
ist für sie nicht unbedingt gut. Auch muss ein Empfehlungssystem aus ihrer Sicht
nicht unbedingt eine gute Abdeckung haben (also für jeden Content Empfehlun-
gen für Annotationen generieren können). Für die Archivare ist vielmehr wichtig,
dass Annotationsvorschläge, schlichtweg sehr gut sein müssen – es aber gar nicht
schlimm ist, wenn das System nichts empfiehlt, wenn es nichts „sehr gutes“ zu
empfehlen hat. In der Praxis ist es einfach lästig, viele „weniger gute“ oder unge-
eignet Vorschläge lesen oder löschen zu müssen.
Auch wurde wiederum von den Archivaren darauf hingewiesen, dass ein Empfeh-
lungssystem für Annotationen unbedingt lernen müsse. Es mache schlichtweg kei-
nen Spaß und sei ermüdend, immer wieder Ähnliches korrigieren oder ablehnen
zu müssen, diese Arbeit würde jedoch gerne gemacht, wenn das System dadurch
bessere Empfehlungen geben könnte.




48
SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen



    LITERATUR UND QUELLEN

•   von Ahn, L.; Ginosar, S., Kedia, M., Liu, R. & Blum, M. (2006). Improving Accesibility of the Web with a Compu-
    ter Game. Proceedings of the SIGCHI conference on Human Factors in computng systems table of contents,
    Montréal, Québec, Canada, 79-82.
•   Ames, Morgan & Naaman, Mor (2007). Why We Tag: Motvatons for Annotaton in Mobile and Online Media.
    Online verfügbar:
    htp://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=BE3E2E214C7C94F819FF65112A8B6696?
    doi=10.1.1.90.4934&rep=rep1&type=pdf [2011-02-01]
•   Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluaton für Human- und Sozialwissenschafler (4.
    Aufage). Berlin: Springer.
•   Bouma, G. (2009). Normalized (Pointwise) Mutual Informaton in Collocaton Extracton. Proceedings of Ge-
    sellschaf für Sprachtechnologie & Computerlinguistk (GSCL).
•   Brand-Haushofer, Richard (2005). Recommender Systeme in digitalen Bibliotheken. Bakk. Arbeit. Insttut: In-
    formatonsverarbeitung., Abt. f. Informatonswirtschaf. Wien, Wirtschafsuniv.. Online zugänglich unter:
    htp://epub.wu-wien.ac.at/dyn/virlib/bakkWI/showentry?ID=epub-wu-01_93d&style=aihtml (2010-01-04)
•   Camon, Evelyn B.; Barrell, Daniel G.; Dimmer, Emily C.; Lee, Vivian; Magrane, Michele; Maslen, John; Binns,
    David & Apweiler, Rolf (2005). An evaluaton of GO annotaton retrieval for BioCreAtIvE and GOA, In: BMC
    Bioinformatcs 2005, 6 (Suppl 1):S17doi:10.1186/1471-2105-6-S1-S17
•   Carneiro, Gustavo; Chan, Antoni B.; Moreno, Pedro J. & Vasconcelos, Nuno (2007). Supervised Learning of Se-
    mantc Classes for Image Annotaton and Retrieval. In: IEEE Transactons on Patern Analysis and Machine In -
    telligence (TPAMI), March 2007 (Vol. 29, No. 3), pp. 394-410.
•   Cilibrasi, Rudi & Vitanyi, Paul (2007). The Google Similarity Distance, IEEE Trans. Knowledge and Data Engi-
    neering, 19:3(2007), 370-383.
•   Couto, F., Silva, M., & Coutnho, P. (2007). Measuring semantc similarity between Gene Ontology terms. In:
    Data and Knowledge Engineering, 61:137–152
•   Derntl, Thomas; Hampel, Thorsten; Motschnig, Renate & Pitner, Tomas (2009). Social Tagging und Inclusive
    Universal Access. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social
    Tagging in der Wissensorganisaton, Münster: Waxmann, 51-71.
•   Dolog, Peter (2009). Tag Based Recommendaton in KIWI. OntologSession, 12 February 2009. Online zugäng-
    lich unter: htp://ontolog.cim3.net/fle/work/SemantcWiki/SWiki-05_Applicaton-2_20090212/Tag-based-
    Recommendatons-in-KIWI--PeterDolog_20090212.pdf (2010-02-18)
•   Dumais, S. T. (2004). Latent semantc analysis. Annual Review of Informaton Science and Technology (ARIST),
    Volume 38, Chapter 4, 189-230.
•   Gabrilovich, E. & Markovitch, S. (2007). Computng Semantc Relatedness using Wikipedia-based Explicit Se-
    mantc Analysis. In: Proceedings of the 20th Internatonal Joint Conference on Artfcial Intelligence , Hydera-
    bad, India.
•   Güntner, Georg; Sint, Rolf & Westenthaler, Rupert (2009). Ein Ansatz zur Unterstützung traditoneller Klassif-
    katon durch Social Tagging. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad
    Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 187-199.
•   Hamming, R.W. (1950). Error-detectng and error-correctng codes. In: Bell System Technical Journal XXIX (2):
    147-160.




                                                                                                                      49
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

Weitere ähnliche Inhalte

Ähnlich wie Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

Zukunft von Linked Media: Trends, Entwicklungen und Visionen
Zukunft von Linked Media: Trends, Entwicklungen und VisionenZukunft von Linked Media: Trends, Entwicklungen und Visionen
Zukunft von Linked Media: Trends, Entwicklungen und VisionenSalzburg NewMediaLab
 
Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...
Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...
Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...Salzburg NewMediaLab
 
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...Salzburg NewMediaLab
 
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...Georg Rehm
 
lernOS Expert Debriefing Guide Version 2.4
lernOS Expert Debriefing Guide Version 2.4lernOS Expert Debriefing Guide Version 2.4
lernOS Expert Debriefing Guide Version 2.4Cogneon Akademie
 
Band1 crowdsourcing open_access
Band1 crowdsourcing open_accessBand1 crowdsourcing open_access
Band1 crowdsourcing open_accessOTTM
 
SOCIAL MEDIA IN DER INDUSTRIE
SOCIAL MEDIA IN DER INDUSTRIESOCIAL MEDIA IN DER INDUSTRIE
SOCIAL MEDIA IN DER INDUSTRIEWestaflex
 
Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...
Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...
Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...NetFederation GmbH
 
Benchlearning Bericht Social Intranet 2012 (blp12)
Benchlearning Bericht Social Intranet 2012 (blp12)Benchlearning Bericht Social Intranet 2012 (blp12)
Benchlearning Bericht Social Intranet 2012 (blp12)Cogneon Akademie
 
Wozu Soziale Netzwerke
Wozu Soziale NetzwerkeWozu Soziale Netzwerke
Wozu Soziale NetzwerkeWerner Drizhal
 
User-centered Design für Telemedizin-App
User-centered Design für Telemedizin-AppUser-centered Design für Telemedizin-App
User-centered Design für Telemedizin-AppRoland Bruggmann
 
Social media Integration für KMU (Bachelorthesis)
Social media Integration für KMU (Bachelorthesis)Social media Integration für KMU (Bachelorthesis)
Social media Integration für KMU (Bachelorthesis)social_mads
 
2b version bachelorarbeit
2b  version bachelorarbeit2b  version bachelorarbeit
2b version bachelorarbeitkamer3
 
Masterarbeit Roland Kahlert
Masterarbeit Roland KahlertMasterarbeit Roland Kahlert
Masterarbeit Roland KahlertRoland Kahlert
 

Ähnlich wie Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen. (20)

Zukunft von Linked Media: Trends, Entwicklungen und Visionen
Zukunft von Linked Media: Trends, Entwicklungen und VisionenZukunft von Linked Media: Trends, Entwicklungen und Visionen
Zukunft von Linked Media: Trends, Entwicklungen und Visionen
 
Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...
Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...
Erfolgreicher Aufbau von Online-Communitys. Konzepte, Szenarien und Handlungs...
 
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...Linked Media. Ein White-Paper zu den Potentialen von  Linked People, Linked C...
Linked Media. Ein White-Paper zu den Potentialen von Linked People, Linked C...
 
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
Digitale Kuratierungstechnologien – Semantische Technologien halten 
Einzug i...
 
lernOS Expert Debriefing Guide Version 2.4
lernOS Expert Debriefing Guide Version 2.4lernOS Expert Debriefing Guide Version 2.4
lernOS Expert Debriefing Guide Version 2.4
 
Band1 crowdsourcing open_access
Band1 crowdsourcing open_accessBand1 crowdsourcing open_access
Band1 crowdsourcing open_access
 
SOCIAL MEDIA IN DER INDUSTRIE
SOCIAL MEDIA IN DER INDUSTRIESOCIAL MEDIA IN DER INDUSTRIE
SOCIAL MEDIA IN DER INDUSTRIE
 
Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...
Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...
Part III: Social Media & Online IR – Nächste Schritte in einer digitalen, ve...
 
Benchlearning Bericht Social Intranet 2012 (blp12)
Benchlearning Bericht Social Intranet 2012 (blp12)Benchlearning Bericht Social Intranet 2012 (blp12)
Benchlearning Bericht Social Intranet 2012 (blp12)
 
Wozu Soziale Netzwerke
Wozu Soziale NetzwerkeWozu Soziale Netzwerke
Wozu Soziale Netzwerke
 
Trendreport: Die Zukunft des Semantic Web
Trendreport: Die Zukunft des Semantic WebTrendreport: Die Zukunft des Semantic Web
Trendreport: Die Zukunft des Semantic Web
 
Jahresbericht ikum 2012
Jahresbericht ikum 2012Jahresbericht ikum 2012
Jahresbericht ikum 2012
 
Comunis Final synthesis booklet 4 languages
Comunis Final synthesis booklet 4 languagesComunis Final synthesis booklet 4 languages
Comunis Final synthesis booklet 4 languages
 
User-centered Design für Telemedizin-App
User-centered Design für Telemedizin-AppUser-centered Design für Telemedizin-App
User-centered Design für Telemedizin-App
 
PR 2.0 - Ein Konzept zum Einsatz von Social Media fuer die PR-Arbeit der Euro...
PR 2.0 - Ein Konzept zum Einsatz von Social Media fuer die PR-Arbeit der Euro...PR 2.0 - Ein Konzept zum Einsatz von Social Media fuer die PR-Arbeit der Euro...
PR 2.0 - Ein Konzept zum Einsatz von Social Media fuer die PR-Arbeit der Euro...
 
Social media Integration für KMU (Bachelorthesis)
Social media Integration für KMU (Bachelorthesis)Social media Integration für KMU (Bachelorthesis)
Social media Integration für KMU (Bachelorthesis)
 
2b version bachelorarbeit
2b  version bachelorarbeit2b  version bachelorarbeit
2b version bachelorarbeit
 
Bildungsatlas Virtual Engineering Baden-Württemberg 2013
Bildungsatlas Virtual Engineering Baden-Württemberg 2013Bildungsatlas Virtual Engineering Baden-Württemberg 2013
Bildungsatlas Virtual Engineering Baden-Württemberg 2013
 
Projektkommunikation: Leseprobe
Projektkommunikation: LeseprobeProjektkommunikation: Leseprobe
Projektkommunikation: Leseprobe
 
Masterarbeit Roland Kahlert
Masterarbeit Roland KahlertMasterarbeit Roland Kahlert
Masterarbeit Roland Kahlert
 

Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

  • 1. SMARTE ANNOTATIONEN. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen Sandra Schön und Thomas Kurz unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella, Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger
  • 2. Das Kompetenzzentrum für Neue Medien, Salzburg NewMediaLab – The Next Generation (SNML-TNG) arbeitet unter der Koordination der Salzburg Research Forschungsges.m.b.H. daran, digitale Inhalte zu personali- sieren, für alle auffindbar zu machen und nachhaltig zu nutzen: Dazu werden Informationen auf der Ebene der In- halte (Linked Content), der stukturierten Daten (Linked Data) und der sozialen Interaktion (Linked People) ver- knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me- dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe- tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit- teln des BMWFJ, des BMVIT und des Landes Salzburg. Homepage: www.newmedialab.at © Salzburg NewMediaLab – The Next Generation Oktober 2011 ISBN 978-3-902448-31-6 Sandra Schön und Thomas Kurz unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella, Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen. Band 4 der Reihe „Linked Media Lab Reports“, herausgegeben von Christoph Bauer, Georg Güntner und Sebastian Schaffert Verlag und Herstellung: Salzburg Research, Salzburg Umschlaggestaltung: Daniela Gnad, Salzburg Research Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
  • 3. Vorwort Das Kompetenzzentrum für neue Medien wurde beginnend mit dem Jahr 2000 als Denkfabrik für innovative Konzepte und Lösungen für die österreichische Medien- und Content-Industrie aufgebaut und bietet seitdem Technologieführern und den Betreibern fortschrittlicher Internet-Plattformen eine Heimat zur Entwicklung und Erprobung innovativer Informationssysteme und -architekturen. Gemeinsam mit führenden Vertretern der Medien- und Content-Industrie wurden dabei von Beginn an konkrete Lösungen entwickelt und erfolgreich umgesetzt. Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia- Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es in der Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout im Online-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien des Semantic Web erstmals die Bedeutung von Inhalten auch für Computerprogram- me begreifbar zu machen. In dieser Zeit arbeitete das Salzburg NewMediaLab an der Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Verwendungsbe- reich automatisch anpassen. Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an die Medien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkte Medien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitaler Informationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da- ten und von Personen bzw. auf deren sozialen Interaktion mit den Inhalten be- ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextes bietet sich Unternehmen die Chance, ihre Inhalte über verschiedene Anwendun- gen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung personali- sierter Inhalte zu reduzieren. Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unter der Koordination der Salzburg Research Forschungsgesellschaft führende öster- reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG und Salzburger Nachrichten) und Softwarehäuser (mediamid, Semantic Web Compa- ny, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von Forschungsein- richtungen im Bereich der Multimedia-Technologien, des Semantic Web und der sozialen Medien (Studiengang MultiMediaTechnology der FH Salzburg, Semantic Technology Institut der Universität Innsbruck, Salzburg Research). Wir hoffen, mit diesem vierten Band der „Linked Media Lab Reports“ einen gelun- genen Einblick in die Möglichkeiten der Bewertung von Annotationsvorschlägen und der Auswahl entsprechender Empfehlungsalgorithmen zu geben. Georg Güntner www.newmedialab.at Zentrumsleiter Oktober 2011
  • 4.
  • 5. Inhaltsverzeichnis Einleitung und Hintergrund........................................................................... 7 Annotatonen: Entstehung und Einsatz..........................................................9 Annotatonen .......................................................................................... 9 Ziele der Annotaton...............................................................................10 Annotatonsformen und Kombinatonen................................................ 10 Empfehlungssysteme und ihre Bewertung.................................................. 13 Empfehlungen im Web........................................................................... 13 Quellen für Empfehlungssysteme...........................................................13 Verfahren für Empfehlungssysteme....................................................... 14 Zielsetzungen von Empfehlungssystemen.............................................. 15 Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen.............15 Empfehlungssysteme für Annotatonen.......................................................19 Quellen für Empfehlungen von Annotatonen........................................ 19 Eingesetzte Verfahren für Empfehlungen von Annotatonen.................26 Kombinaton von Quellen und Verfahren............................................... 27 Kriterien für „gute“ Empfehlungen für Annotatonen.................................. 29 Ein Beispiel: Wie gut sind diese Vorschläge?.......................................... 29 Mögliche Kriterien für gute Empfehlungen ............................................30 Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen....................................................................31 Verfahren zur Bewertung der Empfehlungen für Annotatonen im Überblick..................................................................................... 31 (a) Bewertung der einzelnen Empfehlung durch Experten.....................32 (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten................................................................................33 (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer...........34 (d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen ............................................................. 36 (e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatonsvorschlägen.............................................................. 37 (f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde.................................................... 40 (g) Die „goldene Strategie“: Vergleich mit Standarddaten......................41 Vergleich der Ansätze.............................................................................41
  • 6. Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen .......................................................................................................... 43 Begrifsähnlichkeit.................................................................................. 43 Syntaktsche Metriken............................................................................44 Semantsche Metriken............................................................................44 Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen.............47 Mögliche Kennzahlen............................................................................. 47 Anmerkung zur Bewertung von Unterschieden...................................... 48 Diskussion.............................................................................................. 48
  • 7. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen EINLEITUNG UND HINTERGRUND Um Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zu können, wird mit Annotationen gearbeitet. Um den Vorgang der Annotation zu unterstützen – weil das Annotieren mühsam und zeitaufwändig ist – geben immer mehr Systeme Empfehlungen für Annotationen. Für diese ersten Zeilen sollte uns so ein System, sofern es gute Empfehlungen für Annotation gibt, das Schlagwort „Einleitung“ geben. In diesem Lab Report werden Ansätze zusammengetragen und vorstellt, wie man die Qualität dieser Empfehlungen für Annotationen bewerten und messen kann. Damit kann ein wesentlicher Beitrag zur Qualitätssicherung der Annotationen ge- leistet werden: Je besser die Empfehlungen für Annotationen, desto besser selbst sind schließlich die Annotationen. In diesem Lab-Bericht wird dazu zunächst einführend geklärt, was Annotationen und ihre Zielsetzungen sind und auch, welche Annotationsformen es gibt. Dazu werden wir den Forschungs- und Praxistand zu folgenden Fragen beschreiben und um eigene Ideen ergänzen. Im Vordergrund stehen dabei die folgenden Frage- stellungen: – Wie bewertet man die Güte von Vorschlägen für Annotationen? – Wie funktionieren (allgemein) Empfehlungssysteme und wie bewertet man sie? – Wie funktionieren Empfehlungssysteme für Annotationen? Die Klärung dieser Fragen sind die Voraussetzung dafür, die Hauptfrage klären zu können: – Wie lässt sich die Qualität von Empfehlungen für Annotationen feststellen und messen? Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren- de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik in Forschungsarbeiten zum Einsatz kommen. Zusätzlich haben wir diesen Status Quo in einer Expertenrunde des Salzburg NewMediaLab Ende Mai 2011 diskutiert und unsere Erfahrungen und Ansichten dazu, auch aus einer eher praktischen Per- spektive von Archivaren und Softwarehäusern, ausgetauscht. Dieser Lab Report stellt damit eine Basis für weitere wissenschaftliche und praktische Maßnahmen dar. 7
  • 9. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen ANNOTATIONEN: ENTSTEHUNG UND EINSATZ Annotatonen In der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be- deutet 'Anmerkung', 'Beifügung', 'Hinzufügung'. In diesem Sinn haben Annotatio- nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakter der Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, die zwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtet werden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert, ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne- ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu stören oder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010) Abbildung 1: Handschriftliche Notizen und Annotationen. Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (2011-03-15) Nicht nur auf Papier, z. B. Notizen am Rand von Büchern, wird annotiert. Im World Wide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oder auch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom- men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho- mepages oder Profile bei Facebook, annotiert werden. 9
  • 10. Annotatonen: Entstehung und Einsatz Ziele der Annotaton Es gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate- rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab- sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un- terscheiden. Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An- notationen vor allem um – die Recherche der Materialien zu verbessern, – um gute Empfehlungen für passendes eigenes weiteres Material zu geben, – um die Materialien intelligent mit externen Daten und Ressourcen verknüp- fen zu können (z. B. mit dem Linked-Data-Ansatz) und – um mit Methoden des Webmonitoring das eigene Material und dessen Ent- wicklung beobachten und bewerten zu können. Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig – für das eigene Informationsmanagement und – um Materialien für andere erschließbar zu machen, beispielsweise indem Fotos bei Facebook mit dem Namen von Kontakten versehen werden. Darüberhinaus werden Annotationen auch für das eigene Lernen oder im Unter- richt eingesetzt, um damit beispielsweise wesentliche Aussagen eines Textes zu markieren oder offene Fragen zu notieren. Diese Variante steht jedoch nicht im Fokus des Beitrags. Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo- tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebots ab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei- gen wird, entstehen Annotationen nicht zwangsläufig bewusst. Annotatonsformen und Kombinatonen Es gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da- von vorgestellt. Professionelle Klassifkaton Um Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt. Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte, die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re- cherchieren kann. Mit Hilfe von kontrollierten Vokabularen und Thesauri werden Terme in Verbindung gebracht, so dass beispielsweise ein Text zu Skifahren dem Bereich „Sport“ zugeordnet werden kann. In traditionellen Medienarchiven wer- 10
  • 11. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen den Materialien zu Kategorien und Unterkategorien zugeordnet, welche häufig auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten. Freie Verschlagwortung und Social Tagging Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu markieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön- nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä- re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von traditionellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit der Klassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichen Termen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192). Automatsche Annotaton Neben den von Personen durchgeführten Annotationen gibt es auch automatisch generierte Annotationen. Dazu werden automatisch aus den Texten oder Bildern Informationen generiert. Auch können die zahlreichen (Meta-) Informationen die im Web anfallen und gesammelt werden, und bei der Entwicklung von Annotatio- nen berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er auf- gerufen, wen interessiert eine Webseite? Kombinaton der Ansätze Nutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus- drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi- schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissen der Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro- blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist es oft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiert wurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma- chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit dem Kaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku- mente z. B. über entsprechende Suchfunktionen nicht auffindbar. Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werden die drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl & Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati- onsextraktion) mit manuell erzeugte Metadaten durch Tagging oder Klassifikati- on. 11
  • 12. Annotatonen: Entstehung und Einsatz Beispielsweise wurde für das integrierte Projekt LIVE1 ein Prototyp entwickelt, der versucht, die Vorteile des traditionellen Klassifizierens mit den Vorteilen des Social Taggings zu verbinden (Güntner, Sint & Westenthaler, 2009). 1 Live Staging of Media Events, htp://ist-live.org (2009-10-12) 12
  • 13. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen EMPFEHLUNGSSYSTEME UND IHRE BEWERTUNG In einer Veröffentlichung zu webbasierten Empfehlungssystemen hat das Salz- burg NewMediaLab bereits einiges zu ihrer Konzeption und den Möglichkeiten ih- rer Evaluation zusammengetragen. Folgendes ist eine Zusammenschau aus dieser Arbeit und gibt einen Einblick in webbasierte Empfehlungssysteme und ihre Be- wertung (Schaffert, Bürger, Hilzensauer, Schneider, Wieden-Bischof, 2010). Empfehlungen im Web Wachsende Datenbestände machen es schwierig sich zu orientieren. Empfeh- lungssysteme werden daher immer häufiger eingesetzt. Sie schlagen zum Beispiel Produkte, Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musik- gruppen oder potenzielle Freunde und Lebenspartner vor. Insbesondere durch den Anwuchs von Beiträgen in Social-Media-Anwendungen sind Empfehlungssys- teme gefragt, damit interessante Beiträge und Personen nicht „untergehen“. Emp- fehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht unter einem Empfehlungssystem ein System, „das einem Benutzer in einem gege- benen Kontext aus einer gegebenen Entitätsmenge aktiv eine Teilmenge „nützli- cher“ Elemente empfiehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen häufig als „Recommender-Systeme“ bezeichnet. Quellen für Empfehlungssysteme Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Infor- mationen über Nutzer sowie den Empfehlungselementen zur Verfügung. Bei- spielsweise sind dies (s. Schaffert u.a. 2009, 10): – das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten, – die Kommunikations- und Netzwerkstruktur als Möglichkeit die sozialen Ge- gebenheiten zu erfassen und zu nutzen, – Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Webseiten zu evaluieren und zu beurteilen, – Social Tagging als eine innovative und populäre Variante von gemeinschaft- licher Verschlagwortung von Dokumenten, – Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Me- tainformationen analysiert und abgeleitet werden können, – Metadatenformate als klassische Form von Metainformationen sowie schließlich – verknüpfte Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data). 13
  • 14. Empfehlungssysteme und ihre Bewertung Bei Empfehlungssystemen wird darüberhinaus auch damit experimentiert, bei- spielsweise Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfeh- lungen zu verbessern (Nunes & Blanc, 2008). Empfehlungen aufgrund der unterschiedlichen Quellen werden auch folgender- maßen unterschieden: Explizite Empfehlungen sind Empfehlungen durch Bewer- tungen von Nutzern, daneben gibt es verhaltensbasierte Empfehlungen durch sonstige Aktivitäten. Nach Neumann (2009) sind mit der Nutzung dieser unter- schiedlichen Quellen auch unterschiedliche Herausforderungen verbunden. Verfahren für Empfehlungssysteme Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgen- den Verfahren oder eine Kombination von beiden genutzt: – Beim inhaltsbasierten Filtern (engl. „Content Based Filtering“) beruhen die Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden. Beispielsweise wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerprofils ergeben hat, dass es ihn interessieren könnte (Klahold, 2009). – Beim kollaborativen Filtern (engl. „Collaborative Filtering“) werden Empfeh- lungen auf der Basis von Daten zu ähnlichen Benutzerprofilen gegeben. Bei- spielsweise werden hier Bücher empfohlen, die andere Nutzer mit ähnli- chem Benutzerprofil bereits gekauft, gelesen oder positiv bewertet haben (Klahold, 2009). Ein weiteres wichtiges Beschreibungsmerkmal eines Empfehlungssystem ist es, ob personalisierte Empfehlungen gegeben werden oder ob für jeden Nutzer die gleichen Empfehlungen gegeben werden. Darüberhinaus gibt es auch Systeme und Anwendungen, die unterstützen, dass Nutzer anderen Nutzern direkte (persönli- che) Empfehlungen geben (s. Terveen & Hill, 2001; Brand-Haushofer, 2005). Einen schnellen Einstieg in die unterschiedlichen Varianten der Empfehlungssys- teme zeigt ein kurzer Film des Salzburg NewMediaLab: Er zeigt, auf welche unter- schiedliche Arten man einen Süßigkeitenempfehlungsautomat konstruieren bzw. programmieren kann (vgl. Abbildung 2). Abbildung 2: Screenshot zum Video zu Empfehlungssystemen. Quelle: Salzburg NewMediaLab, 2010. http://www.vimeo.com/10231184 (2011-03-15) 14
  • 15. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Zielsetzungen von Empfehlungssystemen Empfehlungssysteme haben die Aufgabe, Nutzern von Anwendungen Objekte vor- zuschlagen, die für sie interessant sein können. Doch welche Ziele und Zwecke verfolgen Betreiber eines Angebots, das ein Empfehlungssystem enthält? Unmittelbare Zwecke, die Empfehlungssysteme erfüllen sollen, sind, dass – Nutzer für sie interessante, neuartige und nützliche Empfehlungen für Ex- perten, Produkte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhalten, und/oder – dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung von Reisen etc. erleichtert, beschleunigt und verbessert werden. Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen darüberhinaus verfolgen können, sind dabei: – mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen, – zufriedenere Nutzer zu erhalten, – sich durch besseren Service von Mitbewerbern zu unterscheiden sowie – höhere Umsätze und/oder Gewinne zu sichern. Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöh- te Umsätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die für die Kunden auch tatsächlich interessant sind. So wird das Hauptgeschäft bei Amazon oder dem iTunes Store nicht mehr mit den Verkaufsschlagern gemacht, sondern mit Nischenprodukten. Diese gilt es aber zu finden, daher sind Empfeh- lungssysteme unabdingbar (vgl. Klahold, 2009). Strategische Ziele, die damit verfolgt werden können, sind zum Beispiel: die Nut- zer an den eigenen Service zu binden, sie zu aktivieren und/oder ein Alleinstel- lungsmerkmal im Vergleich mit den Mitbewerbern zu erlangen. Gleichzeitig, wenn beispielsweise mit der Einführung von Empfehlungssystemen auch Bewertungs- systeme eingeführt werden können, ermöglichen Empfehlungssysteme auch leich- teres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können Betreiber, beispielsweise in Handelsplattformen, Auswirkungen der Empfehlun- gen von Produkten oder personalisierter Werbung analysieren und dadurch auch Wissen über gute Produktplatzierung und Werbung gewinnen. Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen Wie lassen sich Empfehlungssysteme bewerten? Die Qualität einer Empfehlung lässt sich nur dann eindeutig bewerten, wenn es anerkannte Maßstäbe und Richt- linien für eine qualitativ hochwertige Empfehlung gibt. 15
  • 16. Empfehlungssysteme und ihre Bewertung Bewertung von Empfehlungen durch Befragungen Relativ einfach können Empfehlungssysteme bewertet werden, bei denen die kor- rekten bzw. optimalen Lösungen eindeutig und bekannt sind. Ein Beispiel hierfür ist eine Routenempfehlung, bei der die Qualität anhand von Kilometern oder Fahr- zeit festgemacht werden kann. Wenn ein System die besten Empfehlungen gibt, arbeitet es optimal. Auch nicht eindeutige Empfehlungen verlangen nach einer Überprüfung ihrer Qualität. Auch für sie wurden spezifische Qualitätskriterien entwickelt, um objek- tiv ihre Brauchbarkeit zu überprüfen. Klahold (2009) geht dabei auf Möglichkei- ten der Evaluation durch Befragungen ein (S. 37ff). – Eine Möglichkeit der Überprüfung ist die Bewertung der Empfehlungen im Hinblick auf ihre Nützlichkeit aus Nutzersicht. Allerdings sind dazu ausrei- chend viele Nutzer zu befragen. – Zudem kann das Empfehlungssystem systematisch mit Empfehlungen von Experten verglichen werden. Dazu müssen Experten auf Grundlage der zu empfehlenden Objekte Empfehlungen abgeben. Die Ähnlichkeit der Empfeh- lungen des Systems sowie der Empfehlungen der Experten kann wiederum berechnet werden und als Maßstab hergenommen werden. Eine Überein- stimmung von 100 Prozent ist hier die Zielgröße. Bewertung von Algorithmen durch Analysen mit Testdaten Bei der Entwicklung von Empfehlungssystemen gilt es häufig einen Vergleich un- terschiedlicher Algorithmen und Verfahren vorzunehmen. Es ist dazu jedoch nicht zwangsläufig notwendig, wie bei Klahold (2009) beschrieben, Nutzer- oder Exper- tenbefragungen durchzuführen. Wenn beispielsweise Einschätzungen der Nutzer über (zu empfehlende Elemente) oder ein paar Erkenntnisse über ihr Nutzerver- halten vorliegen, ist das folgende Verfahren möglich: Man greift darauf zurück, dass ein Empfehlungssystem „versucht, die Bewertung vorherzusagen, die der Nutzer dem Objekt geben würde, falls er es nach der Benutzung selbst bewerten müsste“ (Sorge, 2009, 19). Dazu berechnet man mit Hilfe der Algorithmen Bewer- tungen von Objekten die (eigentlich) bereits bekannt sind und vergleicht das Er- gebnis mit der tatsächlichen Bewertung. Dieses Vorgehen wird anhand der Evaluation unterschiedlicher Empfehlungsalgo- rithmen bei Shardanand und Maes (1995) genauer beschrieben: Ziel der Untersu- chung war es, den besten Algorithmus für ein Empfehlungssystem für Musik aus- zuwählen. Basis für Empfehlungen sind dabei die Nutzerbewertungen von Musik- stücken und ein kollaboratives Filtern. Jedes Musikstück wird auf einer Skala von 1 („pass my earplugs“) bis 7 („one of my favorite few! can't live without them!!“) bewertet. Für die Evaluation der Empfehlungsalgorithmen wurden in 1.000 Nut- zerprofilen je 20 Prozent der bereits bewerteten Musikstücke in einem Nutzer- profil herausgenommen und als Zielmenge bestimmt. Die übrigen 80 Prozent der 16
  • 17. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen bewerteten Musikstücke wurden genommen, um daraus zu berechnen, welche Bewertung die Stücke aufgrund des verwendeten Algorithmus in der vorher be- stimmten Zielmenge für jeden Nutzer erhalten würden. Diese errechnete Bewer- tung wird mit der tatsächlichen Bewertung des Benutzers verglichen. Dabei kann untersucht (und verglichen) werden, inwieweit die Bewertungen durch die Algo- rithmen mit den tatsächlichen abweichen: So sollte die Bewertung nicht nur im Mittel möglichst korrekt geschätzt werden, sondern auch möglichst selten (hoch) abweichen. Weil nicht mit jedem Algorithmus gleichermaßen für jeden Fall Werte berechnet werden können, ist zudem zu untersuchen, wie hoch der Prozentsatz zu schätzender Werte ist (siehe Shardanand & Maes, 1995). Auf diese Weise ist es – vorausgesetzt, entsprechende Nutzerdaten liegen vor – sehr gut möglich (unter- schiedliche) Algorithmen zu bewerten. Kennzahlen für Empfehlungssysteme: Precision, Recall und Novelty Im Bereich der Empfehlungssysteme gibt es zwei weitere Größen, die bei der Ein- schätzung der Qualität eines Systems berechnet werden können (Herlocker u.a., 2004). Sie werden „Precision“ und „Recall“ genannt. Precision (engl. für „Präzisi- on“) ist dabei der Anteil der relevanten Empfehlungen an den empfohlenen Objek- ten. Recall (engl. für „Aufruf“) ist der Anteil der empfohlenen Elemente an den re- levanten Elementen. Anhand einer Darstellung lässt es sich leichter darstellen, wie sich diese beiden Maßstäbe unterscheiden. Abbildung 3: Grundlagen für die Berechnung von Recall und Precision. Quelle: Abbildung nach einer Darstellung in Klahold, 2009, 40. Dazu das Berechnungsbeispiel aus Klahold (2009): „Gibt es beispielsweise 10 re- levante Empfehlungselemente und sind unter 15 empfohlenen Elementen 5 rele- vante, so hat Precision einen Wert von 33% und Recall einen Wert von 50%“ (S. 41). Zwar geben die beiden Maßzahlen Prozentangaben an, die eine gewisse Ex- aktheit vorspiegeln. Da die beiden Maßzahlen jedoch wiederum auf Daten beru- hen, die mit obigen Verfahren erfasst wurden, ist ihre Genauigkeit und Brauchbar- keit nicht von vornherein gegeben. Neben der Genauigkeit muss ein System auch wirklich neue und nicht einfach nahe liegende Empfehlungen geben (Schickel-Zuber, 2007, 17): Wenn jemand den 17
  • 18. Empfehlungssysteme und ihre Bewertung Kinofilm über Harry Potter und den Orden der Phönix gesehen hat, wäre es auf den ersten Blick sinnvoll, ihm auch die ersten vier Harry-Potter-Filme zu empfeh- len. Allerdings ist die Wahrscheinlichkeit groß, dass er sie eh schon kennt. Die Neuartigkeit (engl. „Novelty“) einer Empfehlung zu überprüfen ist im Zweifel nur durch Befragungen der Nutzer feststellbar. Trotzdem gibt es Algorithmen, die die Neuartigkeit der Empfehlungen bewerten lassen (s. Schickel-Zuber, 2007, 19; er verweist auf Equation 2.4): Die Neuartigkeit wird dabei eruiert, in dem berechnet wird, wieviele der Empfehlungen auch in den allgemeinen Empfehlungen der Community auftreten. Je mehr es sind, desto weniger neuartig ist erwartungsge- mäß eine Empfehlung für einen Nutzer. Diskussion dieser Verfahren Die vorgestellten beiden Verfahren zur Bewertung der Güte von Empfehlungen von webbasierten Empfehlungen beschreiben zwei Varianten, wie vorgegangen werden kann. Prinzipiell sind beide Verfahren auch für den Einsatz für die Bewer- tung von Annotationen einzusetzen, wie wir später zeigen werden. Allerdings gibt es auch einige Unterschiede und Besonderheiten bei Annotationsvorschlägen. 18
  • 19. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen EMPFEHLUNGSSYSTEME FÜR ANNOTATIONEN Empfehlungssysteme werden nicht nur für (Web-) Materialien allgemein einge- setzt, sondern auch im Zuge der Annotation von (Web-) Materialien und Multime- dia. Dabei werden Nutzer/innen Vorschläge für Annotationen gemacht. Solche Empfehlungssysteme für Annotationen werden eingesetzt um: – den Prozess der Annotation zu beschleunigen, – den Prozess der Annotation zu verbessern sowie – die Annotationen anzureichern. Im folgenden beschreiben wir, auf welcher Grundlage Empfehlungen für Annota- tionen gegeben werden, welches also „Quellen“ für Empfehlungen von Annotatio- nen sein können. Geben Systeme Empfehlungen für Annotationen oder reichern sie Annotationen zusätzlich an spricht man regelmäßig, auch im deutschsprachi- gen von „Enhancing“ (engl. für Verbesserung/Anreicherung). Quellen für Empfehlungen von Annotatonen Wir haben bereits Quellen für Empfehlungssysteme genannt, die allgemein zur Verfügung stehen (s. Schaffert u.a. 2009, 10). Sie stehen prinzipiell auch für Emp- fehlungen für Annotationen zur Verfügung. Einen Überblick über unterschiedliche Quellen, die für Annotationsvorschläge herangezogen werden können, gibt Kock- ler (2008) in seiner Diplomarbeit. Er bezieht sich dabei speziell auf Social Tagging, die dargestellten Möglichkeiten gelten aber für Annotationen allgemein (vgl. dazu Memmel, Kockler & Schirru, 2009). Seine Darstellung wurde adaptiert und auf An- notationsvorschläge übertragen (siehe Abbildung 4). 19
  • 20. Empfehlungssysteme für Annotatonen Abbildung 4: Quellen für Annotationsvorschläge. (in Anlehnung an Kockler, 2008 in Memmel, Kockler & Schirru, 2009) Im Folgenden stellen wir die entsprechenden Methoden und einzelne Anwendun- gen vor. Metadaten als Quelle für Annotatonsempfehlungen Metadaten können als Quelle für Annoationsempfehlungen dienen. Das Exchange- able Image File Format, oder kurz Exif-Format, ist beispielsweise ein Standard für Metadaten von Fotos, die mit Digitalkameras aufgenommen werden (vgl. Wikipe- dia, 2011). Darin enthalten sind die GPS-Angaben, also der Ort der Aufnahme in Form von GPS-Koordinaten. Luo, Yu, Joshi und Hao (2008) versuchen beispiels- weise so, aus den GPS-Koordinaten von Fotos, den Aufnahmezeiten und weiteren Informationen dargestellte Events zu identifizieren, also automatisch Bildern Events zuzuordnen. Allerdings ist zu ergänzen, dass nur ein sehr kleiner Teil der im Web gesammelten Bilder derzeit mit GPS-Koordinaten ausgestattet ist und es sich hier noch um Forschungsarbeiten handelt, die erst zukünftig relevanter sind. Texte als Quellen für automatsch generierte Annotatonsempfehlungen Auch Texte können als Quelle für Annotationen genutzt werden. Unter anderem kommen folgende Verfahren der „Information Extraction“, also Verfahren, um aus Texten automatisch weiterführende Informationen zu erlangen, zum Einsatz. „In- formation Extraction“ definiert sich als der selektiven Strukturierung und Kombi- 20
  • 21. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen nation von impliziten oder expliziten Daten in einem oder mehreren Dokumenten. Information Extraction benutzt dazu semantische Klassifizierungen von Informa- tionen (vgl. Knoth, Schmidt & Smrž, 2008; Moens, 2006). Dabei kommen semantische als auch statistische Verfahren zum Einsatz (s. Knoth, Schmidt & Smrž, 2008): Semantische Verfahren versuchen, u. a. aus der Satzstel- lung heraus zu erkennen, welche Bedeutung der Text hat. Statistische Verfahren benötigen große Mengen an Text, um beispielsweise Häufigkeitsanalysen durch- zuführen. Beide Ansätze werden vielerlei kombiniert. Der SNML-Partner Semantic Web Company bietet mit dem Produkt „poolparty“ eine entsprechende Lösung an. Für unterschiedliche Branchen lässt sich auf der Homepage testen (siehe Abbildung 5), dass die Kombination aus Textextraktion und das Wissen aus kontrollierten Vokabularen zu hilfreichen Tagvorschlägen für den exemplarischen Text zur Wirtschaftspolitik aus der Wikipedia führt (u.a. Wirtschaftspolitik, Kosten, Einkommen, Finanzpolitik, u.a.). Abbildung 5: Screenshot poolparty (Demoversion): Tags und Empfehlungen für den Wikipedia-Artikel „Wirtschaftspolitik“ [2011-07-28]. Quelle: Screenshot http://poolparty.punkt.at/demozone/stw_de/ [2011-07-28] Multmediadaten als Quellen für automatsch generierte Annotatonsempfehlungen Während es für Texte schon länger Vorschläge und Verfahren gibt, nehmen die Bestrebungen, automatische Annotationsempfehlungen für audiovisuelle Quell- materialien zu geben, in den letzten Jahren deutlich zu. Ein prominentes Beispiel ist die Bilder-Suchfunktion der Suchmaschine Google: Sie wertet Bilder nach den hauptsächlich verwendeten Farben, der Größe, der Art (Strichzeichnung) und vie- len weiteren Aspekten automatisch aus und ermöglicht damit den Nutzern der 21
  • 22. Empfehlungssysteme für Annotatonen Suchmaschine Recherchemöglichkeiten, die weit über die reine Textsuche hinaus gehen. Abbildung 6: Screenshot der Google-Bildersuche zum Begriff „Engel“. Links: Einschränkung auf „blau“, rechts auf „Clipart“ Quelle: http://www.google.de (2011-03-15) Im Folgenden haben wir bei den größten offenen Foto- und Videoarchiven nach- geschaut, ob und (wenn möglich) wie hier Empfehlungen für Annotationen gege- ben werden. Das Ergebnis ist eindeutig: Bisher werden in diesen Systemen, zu- mindest beim Hochladen von Fotos und Videos, bisher keine Annotationsvor- schläge gegeben bzw. aus den Fotos und Videos heraus oder aus sonstigen Nutze- rinformationen heraus Annotationen erstellt. Name Start Kategorie URL Werden Annotatio- Wenn ja, welche? nen vorgeschlagen? Buzznet 2005 Musik, Filme, buzznet.com Ja, aber keine auto- Fixe Tagvorschläge: Music, Fotos matisch generier- Fashion, Art und Pop Cul- ten, Optionen sind ture vorgegeben und im- mer gleich. Flickr 2002 Fotos, Videos flickr.com nein (Zuordnung zu Alben) Fotki 1998 Fotos, Videos fotki.com nein (Zuordnung zu Alben) YouTube 2005 Videos youtube.com nein Tabelle 1: Bekannte offene Foto- und Videoarchive und Vorschläge für Annotationen (beim Hochladen). Quelle: Startjahr, Nutzerzahlen und Kategorie nach www.linqia.com, Angaben zum Tagging: eigene Recherchen Es gibt aber im gesamten Multimedia-Bereich zahlreiche Ansätze und Verfahren, die Versuchen, automatisch generierte Annotationen zu erstellen. Für Fotos ist der Lucence-Ansatz ein relativ bekanntes Verfahren, bei dem Farben und Texturen von Fotos ausgewertet werden (Lux & Chatzichristofis, 2008). Ein System, das mit Maschinenlernen arbeitet und relativ erfolgreiche auch Tiere und 22
  • 23. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Landschaftsstrukturen auf Fotos automatisch erkennen kann, wenn es mit ent- sprechenden Testdaten trainiert wurde, ist der Ansatz „Supervised Multiclass La- beling“ (Carneiro et al., 2007; vgl. Abbildung 7). Abbildung 7: Modellierung von semantischen Klassen von Fotografien (a) Auswertung eines Bildes, (b) Auswertung der Texturen von Fotos einer Klasse (mit der gleichen Beschreibung, hier: mountain) (c) Vergleich mit Klassen. Quelle: Carneiro et al., 2007; figure 1, S. 396. Es gibt zahlreiche Spezialanwendungen für automatische Bild- und Mustererken- nung bzw. entsprechende Annotation in Videos: Um festzustellen, wo und wie häufig das eigene Firmenlogo in Videos auftaucht; beispielsweise als Sponsor ei- nes Autorennens, wurde so eine eigene Anwendung entwickelt, die sich „Brand Detector“2 bezeichnet. Im Bereich der Musikdatenbanken hat Turnbull (2005) vier Ansätze beschrieben, wie versucht wird, aus Musikdateien zu erkennen, welchem Genre die Musik zu- zuordnen ist (vgl. Tabelle 2). 2 vgl. htp://www.hs-art.com/html/products/brand_detector.html (2011-04-15) 23
  • 24. Empfehlungssysteme für Annotatonen Tabelle 2: Systeme und die verwendeten Extraktionsmethoden zur Genre-Zuordnung von Musikstücken. Quelle: Turnbull (2005), Tabelle 1 Auch das Annotieren von Audio- und Videoaufzeichnungen stellt vor größere Her- ausforderungen. So werden immer häufiger Vorlesungen aufgenommen und Stu- dierenden zur Verfügung gestellt. Damit diese dann gezielt zu Stellen springen können oder auch nach Begriffen recherchieren können muss das Audio- oder Vi- deomaterial erst mit Annotationen versehen werden. Dazu werden eine Reihe un- terschiedlicher Verfahren genutzt, zum Beispiel der Spracherkennung (Zupancic, 2006). Aktuelle Experimente an der TU Graz kombinieren hier Verfahren, indem Texterkennungsprogramme den Text auf den aufgenommenen Folien auswerten und als Suchbegriffe für die Spracherkennung verwenden. Insgesamt zeigen die Recherchen, dass es eine Reihe von Anwendungen gibt, die automatisch Annotationen erzeugen und mit diesen arbeiten, dass diese jedoch nicht immer Nutzern zur Annotation empfohlen werden. Dies kann auch daran lie- gen, dass die automatischen Annotationen als „perfekt“ und keiner weiteren Ana- lyse bedürftig eingeschätzt werden. So sind bei der Größe eines Bildes keine wei- tere Abstimmungen mehr notwendig. Es ist also nicht so einfach, Systeme zu finden, bei denen aus Multimediadateien automatisch generierte Vorschläge für Annotationen erfolgen. Ein Beispiel ist hier die „Gesichtserkennung“ bei Facebook: Lädt man ein Foto bei Facebook hoch, er- kennt Facebook automatisch Gesichter (markiert mit dem Rahmen) und schlägt dann automatisch die Namen der Kontakte bei Facebook vor (vgl. Abbildung 8). 24
  • 25. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Abbildung 8: Erkennen von Gesichtern bei Facebook (und Vorschlag der Facebook-Kontakte). Quelle: Facebook.com (2011-03-15) Verknüpfe Daten und Schemata als Quelle für Annotatonsempfehlungen Thesauri, Ontologien und Linked Data können Quellen für Annotationsempfehlun- gen sein. Im Forschungsprojekt KiWi3 wurde mit diesem Ansatz versucht, die Vor- schläge für andere Wiki-Inhalte zu verbessern und auch semantische Empfehlun- gen einzubauen, die auf den Tags der Nutzer des semantischen Wikis basieren (vgl. Dolog, 2009). Social Tagging als Quelle für Annotatonsempfehlungen Vielfach werden (existierende) Tags für Webmaterialien Nutzern als Annotation vorgeschlagen. Dabei werden unter anderen vorgeschlagen: – Tags, mit denen andere Nutzer das Material gekennzeichnet haben, – Tags, die man bisher verwendet hat, – Tags, die häufig verwendet werden oder – Tags, die bei ähnlichen Materialien verwendet werden. Delicious und MisterWong sind hier, als Social-Tagging-Plattformen zu allererst zu nennen. Nutzt man zum Beispiel Delicious und will man eine Webseite ver- schlagworten, erhält man Vorschläge für Tags, die man bereits genutzt hat. Es ist zu vermuten, dass diese nicht beliebig vorgeschlagen werden, sondern dass Deli- cious hier eine Auswahl vornimmt, eventuell durch Extraktionsmethoden. Zusätz- lich werden Tags vorgeschlagen, die besonders häufig genutzt werden und wie- derum zur Webseite passen (siehe Abbildung 9; rechts unten „Recommended Tags“). 3 htp://www.kiwi-project.eu, Stand 02/2011 25
  • 26. Empfehlungssysteme für Annotatonen Abbildung 9: Screenshot von Delicious beim Taggen der SNML-Homepage. Quelle: Delicious, htttp://newmedialab.at (2011-03-15) Weitere Quellen für die Empfehlungen für Annotatonen Quelle für Empfehlungen kann auch das eigene Nutzerverhalten oder auch die be- stehenden Vernetzungen und sozialen Kontakte sein. Es wurden bereits zwei Bei- spiele dafür genannt: – Bei Delicious werden Tags vorgeschlagen, die man bereits vergeben hat (vgl. Abbildung 9). – Bei Facebook werden bei Fotos Namen der eigenen Facebook-Kontakte zur Markierung der Fotos vorgeschlagen (vgl. Abbildung 8). Insgesamt zeigt sich, dass oft mehrere Quellen und Verfahren kombiniert genutzt werden, wie auch die folgenden Ausführungen zeigen. Eingesetzte Verfahren für Empfehlungen von Annotatonen Wie allgemein bei Empfehlungssystemen gibt es auch bei den Empfehlungen von Annotationen zwei Verfahren: das inhaltsbasierte Filtern und das kollaborative Filtern. In aller Regel werden Annotationen auf Grundlage der Inhalte gegeben: Werden Empfehlungen für Annotationen gegeben, wird in der Regel das inhaltsbasierte Filtern eingesetzt, dabei beruhen die Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden. Wie dargestellt kommen hier häufig Verfahren der Datenextraktion zum Einsatz, oft wird dabei auch auf Thesauri zurückgegrif- fen. 26
  • 27. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Es gibt aber auch Ansätze bei Empfehlungen von Annotationen, bei denen kollabo- ratives Filtern (engl. „Collaborative Filtering“) eingesetzt wird: Es werden z. B. bei Delicous Tags vorgeschlagen, die sehr häufig verwendet werden. Auch gibt es viel- fach personalisierte Vorschläge („bereits verwendete Tags“). Kombinaton von Quellen und Verfahren Wie bei den Empfehlungssystemen allgemein setzen auch Empfehlungssysteme für Annotationen häufig gleichzeitig auf mehrere Quellen und Verfahren um ihre Ergebnisse zu optimieren. Folgendes Beispiel für einen Tag-Recommender stammt aus Schaffert u.a. (2009, 50ff): Im Projekt „Interedu“4 des Salzburg NewMediaLab wurde ein System entwi- ckelt, das das Tagging von Lernressourcen unterstützt, indem es Tagvorschläge generiert. Dabei kommen inhaltsbasiertes als auch kollaboratives Filtern zum Ein- satz: – Die Hauptkomponentenanalyse ist ein statistisches Verfahren, dass mit Hilfe einer Analyse von „Trainingsdaten“ Rückschlüsse auf das Vorschlagen von Tags geben kann: Dazu werden die Texte der Trainingsdaten in Schlüssel- worte zerlegt, Stoppworte gefiltert und Stammformen gebildet, dann wird eine Dokument-Term-Matrix angelegt und Vektoren beschrieben. Weil allein durch das Vorkommen eines Schlüsselwortes nicht die Relevanz gezeigt ist, wird mit dem TF-IDF-Verfahren (Term Frequency/Inverse Document Fre- quency) festgestellt, ob es vergleichsweise häufig vorkommt, also „beson- ders“ ist. Ziel der Hauptkomponentenanalyse ist es nun, die bestehende Ma- trix so in der Anzahl der Dimensionen zu reduzieren, dass alle Hauptrichtun- gen vertreten sind. – Mit KEA können Texte klassifiziert werden und sogenannte Keyphrases oder „Schlüsselwortketten“ in Texten erkannt werden. KEA unterstützt zwei Ar- ten von Klassifizierungen: die freie Klassifizierung (Schlüsselwortextrakti- on) sowie die eingeschränkte Klassifizierung (Kategorisierung), bei der der Text in eine Kategorie eingeordnet wird. – Auch Assoziationsregeln können zum Vorschlagen von Tags oder Schlüssel- worte eingesetzt werden. Wenn eine Menge von Dokumenten signifikant häufig mit den selben Tags oder Schlüsselworten versehen wurde, kann ein Benutzer von dem Wissen der Vorgänger profitieren, indem seine Tags ver- vollständigt werden. Das Konzept der Assoziationsregeln setzt somit voraus, dass schon Tags vergeben worden sind. Neben inhaltsbasiertem Filtern wird also auch kollaboratives Filtern einge- setzt. Andere Verfahren setzten wiederum deutlich stärker auf das Tagging- Verhalten anderer Nutzer (s. Mishne, 2006). 4 Partner: Salzburg Research, Educaton Highway und Punkt Netservices 27
  • 29. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen KRITERIEN FÜR „GUTE“ EMPFEHLUNGEN FÜR ANNOTATIONEN Man möchte nun also herausbekommen, ob das eine oder andere Vorgehen beim Vorschlagen von Annotationen besser oder schlechter ist. Ein Beispiel: Wie gut sind diese Vorschläge? Werden Empfehlungen für Annotationen gegeben, ist nicht von vorne herein klar, ob oder wie gut diese Annotationen sind. Am Beispiel eines Systems, das automa- tisch Bilder nach Texturen und Merkmalen auswertet (Carneiro et al, 2007, siehe Abbildung 10), wird deutlich, dass es nicht simpel ist zu bewerten, wie gut die Vorschläge des Systems sind: So verwendet der menschliche Experte beim ersten Bild links oben die Schlagworte „Himmel, Jet, Flugzeug, Rauch“ und das System schlägt vor „Flugzeug, Jet, Rauch, Flug, Stützbalken“. Es ist schnell ersichtlich, dass das System treffende Vorschläge macht und weniger zutreffende. Doch wie lässt sich die Qualität genauer beschreiben? Abbildung 10: Annotationsvorschläge eines Systems und Annotationen eines Experten. Quelle: Carneiro et al., 2007; figure 7, S. 405. Besonders wichtig ist es Aussagen zur Qualität zu erhalten, wenn unterschiedliche Empfehlungssysteme für Annotationen verglichen werden sollen: Macht Algorith- mus A oder Algorithmus B bessere Vorschläge für Annotationen? Hier Entschei- dungen zu treffen ist nicht trivial. 29
  • 30. Kriterien für „gute“ Empfehlungen für Annotatonen Mögliche Kriterien für gute Empfehlungen Gute Empfehlungen für Annotationen zeichnen laut Literatur und der Diskussion mit den SNML-Experten darin aus, dass – sie, ganz allgemein gesprochen die wesentlichen Inhalte und Konzepte er- fassen. Konkreter bedeutet dies unter anderem, dass diese Annotationsvorschläge – von Experten genutzt werden, – sie mit den Annotationen von Experten übereinstimmen, – sie nicht zu allgemein sind und möglichst genau ein Material beschreiben und eindeutig sind, – ähnliche Materialien auf ähnliche Arten und Weisen beschreiben, – entsprechenden Thesauri u.ä. entsprechenden Vereinbarungen entspre- chen, – häufig gewählt werden, – ggf. personalisiert sind, also an die Bedürfnisse eines Nutzer(-kreises) an- gepasst sind, – effektiv und im Arbeitsprozess integriert sind sowie – hilfreich und brauchbar sind für weitere Services (z. B. Rechercheanfra- gen). Für Praktiker/innen, insbesondere die Archivare des ORF, wurde darüberhinaus als ein wesentliches Kriterium für gute Annotationsvorschläge ein System ge- nannt, das lernt, also aus guten bzw. schlechten Vorschlägen lernt und entspre- chend die Vorschläge verbessert. Diese Überlegungen helfen bei der Entwicklung von entsprechenden Bewertungs- verfahren. 30
  • 31. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen METHODISCHE ANSÄTZE ZUR EVALUATION DER QUALITÄT VON ANNO- TATIONSVORSCHLÄGEN Im diesem Abschnitt werden mögliche Ansätze vorgestellt, wie unterschiedliche Algorithmen und Verfahren für die Generierung von Vorschlägen für Annotatio- nen bewertet und verglichen werden können. Es geht also darum, Handwerkszeug und Methoden zu ermitteln, die die Auswahl und Bestimmung von besseren Algo- rithmen zur Empfehlung von Annotationen unterstützen. Das angestrebte Ergebnis ist also jeweils (vereinfacht) eine Aussage der Art – Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4 – Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6 Ziel der Evaluation der Qualität von Empfehlungen für Annotationen soll also je- weils eine begründete Wahl von unterschiedlichen Algorithmen für die Annotati- onsvorschläge sein. Verfahren zur Bewertung der Empfehlungen für Annotatonen im Über- blick Es gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol- genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe- rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität von Empfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in- nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten: – (a) Befragung von Experten zur Qualität der empfohlenen Annotationen, – (b) direkter Vergleich der Annotationsempfehlungen durch Befragung von Experten, – (c) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An- satz), – (d) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations- vorschlägen) sowie – (e) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor- schlägen. Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv an der Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitig unterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis- tierende Datensätze genutzt werden können. 31
  • 32. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen – (f) Vergleich der Annotationen von Experten und mit den Annotationen, die das System vorschlagen würde, sowie – (g) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten. Abschließend werden all diese Ansätze noch vergleichend dargestellt. (a) Bewertung der einzelnen Empfehlung durch Experten Hier können Anleihen aus Arbeiten genommen werden, bei denen die Qualität au- tomatischer Annotationen evaluiert wurde. Beispiel: In Tabelle 3 ist exemplarisch das Bewertungsschema einer Software zur Genomentschlüsselung abgebildet. Experten wurden gebeten, mit dieser Hilfe festzu- stellen, wie gut (high, general oder low) die Software hier jeweils ist. Evaluaton Criteria for GO term assignment Criteria for protein associaton The GO term assignment was correct or The protein mentoned in the evidence High close to what a curator would choose, gi - text correctly represented the associated ven the evidence text. UniProt accession (correct species). The GO term assignment was in the cor- The evidence text did not support anno- rect lineage, given the evidence text, but taton to the associated UniProt accessi- General was too high level (parent of the correct on but was generally correct for the pro- GO term) e.g. biological_process or too tein family or orthologs (non-human spe- specifc. cies). The evidence text did not support the GO The evidence text did not menton the term assignment. Note: The GO term correct protein (e.g. for Rev7 protein (li- Low may have been correct for the protein gand) incorrect evidence text referred to but the evidence text did not support it. 'Rev7 receptor') or protein family. Tabelle 3: Evaluationskriterien für automatische Annotationen einer Software zur Genomentschlüsselung. Quelle: Camon et al. 2005, Tabelle 3 Sollen mehrere Algorithmen für Annotationsvorschläge verglichen werden, müs- sen folglich Experten gebeten werden, Annotationsvorschläge unterschiedlicher Herkunft zu beurteilen. Im Anschluss kann dann beispielsweise berechnet wer- den, wie hoch die mittlere Qualität der Annotationsempfehlungen beim Algorith- mus A im Unterschied zum Algorithmus B ist. 32
  • 33. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen (a) Bewertung der Empfehlung durch Experten Kurzbeschreibung Experten bewerten die Qualität der Annotatonen anhand von ausge - wählten Kriterien (z. B. Korrektheit, Eindeutgkeit). Herausforderungen Für ein solches Verfahren ist es notwendig, festzulegen, was geeignete und wichtge Qualitätskriterien für Annotatonen sind – dies variiert nach Einsatzgebiet ggf. stark. Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes Tool notwendig. Um zu aussagekräfigen Ergebnissen zu gelangen, die es erlauben, unter- schiedliche Algorithmen zu unterscheiden, sind umfangreiche Datener- hebungen notwendig. Es sollten dabei die Annotatonsvorschläge für je - weils die gleichen Materialien bewertet werden. Chancen Bei entsprechender (kaum zu realisierender) Datenlage ein höchst ver- trauenswürdiges Verfahren. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor- schlägen eingesetzt wurde. (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten Ein ähnliches Design ist die gleichzeitige Anzeige und der direkte Vergleich von den Annotationsempfehlungen auf der Grundlage unterschiedlicher Empfehlun- gen. Experten können hier direkt und vergleichend entscheiden, welches Vorge- hen bessere Annotationsempfehlungen gibt. Beispiel: Der Nutzer kann bewerten, ob ihm die Annotationsvorschläge des Verfah- rens A oder des Verfahrens B besser gefallen (exakter sind usw.) 33
  • 34. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten Kurzbeschreibung Experten bewerten die Qualität der Annotatonen von zwei Algorithmen anhand von ausgewählten Kriterien (z. B. Korrektheit, Eindeutgkeit) im Hinblick auf die „besseren“ Annotatosvorschläge. Herausforderungen Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes Tool notwendig. Die Experten sollten dabei nicht wissen, welche Empfehlungen jeweils mit welchem Verfahren entstanden sind („blindes“ Review). Das Verfahren macht nur bei Materialien Sinn, bei denen die Algorith- men unterschiedliche Vorschläge machen: Diese könnten auch gezielt bewertet werden. Chancen Ökonomischer als Verfahren (a) Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor- schlägen eingesetzt wurde. (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer Wenn das System von Experten genutzt wird, kann im Vertrauen auf ihre Beurtei- lungskompetenz auch auf folgende Weise festgestellt werden, welche Algorithmen und Verfahren für sie besonders wertvolle Annotationsvorschläge machen: Beispiel: Mit der ALOE-Plattform wird derzeit versucht, eine Schnittstelle zu entwi- ckeln, die es Nutzern erlaubt, selbst die Regeln für die Erstellung der Tag-Vorschläge zu steuern. Wie die Abbildung der derzeitigen Nutzeroberfläche zeigt (s. Abbildung 11. S. 35), kann beispielsweise vom Nutzer festgelegt werden, ob Tag-Vorschläge aus dem Tagging-Verhalten aller ALOE-Nutzer generiert werden sollen, oder ob nur Kontakte einbezogen werden sollen. 34
  • 35. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge. Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688 35
  • 36. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer Kurzbeschreibung Nutzer wählen und konfgurieren selbst im Rahmen der Systemnutzung die entsprechenden Verfahren für die Annotatonsempfehlungen. Herausforderungen Dieses Verfahren setzt voraus, dass sie Nutzer ständig und immer wieder überprüfen, ob und welche Verfahren ihnen besonders gute Annotaton - vorschläge liefert und sie auch entsprechendes Wissen und Wollen mit- bringen. Objektv gültge Ergebnisse können so nur eingeschränkt ermitelt wer- den. Chancen Wird ein solches Verfahren eingesetzt, können unterschiedliche Vorlie- ben von Experten festgestellt werden. Durch das ofene Verfahren sind so auch neuartge Einsichten möglich. Beispiele für den Ein- Inwieweit aus dem Einsatz von ALOE (siehe Memmel, Kockler & Schirru satz (2009) auch Empfehlungen für bestmmte Verfahren abgeleitet werden, ist unklar. (d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotat- onsvorschlägen Sollen mehrere Empfehlungsalgorithmen miteinander verglichen werden, kann auch das Verhalten der Nutzer in laufenden Systemen genutzt werden. Dazu müs- sen ausgewählten Nutzergruppen Empfehlungen für Annotationen auf Grundlage von unterschiedlichen Empfehlungsalgorithmen gegeben werden und verglichen werden, wie häufig jeweils den Empfehlungen „Folge geleistet wird“ (Vergleichs- gruppendesign). Beispiel: Nutzergruppe A erhält Vorschläge für Annotationen nach dem Verfahren A, Nutzergruppe B erhält Vorschläge für Annotationen nach dem Verfahren B. Welche Nutzergruppe wählt mehr der Vorschläge? Auch könnte man, sofern Nutzer gleichzeitig mehrere Empfehlungen erhalten, be- obachten, welcher Empfehlung sie eher nachgehen und den dahinterliegenden Al- gorithmen dafür „Punkte“ geben. Beispiel: Der Nutzer schreibt einen Text und erhält eine Reihe von Vorschlägen für Annotationen. Davon sind einige das Ergebnis des Verfahrens A, andere Ergebnisse des Verfahrens B. Wählt der Nutzer mehr Vorschläge des Verfahrens A oder B? Es ist jedoch nicht damit getan, zu bewerten wie oft die Vorschläge auch akzep- tiert werden. Es ist auch wichtig festzustellen, welche Empfehlungen ein System nicht gibt oder wo die Empfehlungen unzureichend, beispielsweise zu allgemein, sind. Beispiel: Wie in den beiden vorherigen Beispielen wird gleichzeitig bewertet, wie viele und auch welche zusätzlichen Annotationen Nutzer machen. 36
  • 37. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Um zu bewerten, wie weit die ergänzenden Annotationen der Nutzer von den An- notationsvorschlägen entfernt sind, sind die Hinweise auf S. 43ff hilfreich. (d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen Kurzbeschreibung Es wird ausgewertet, wie häufg Vorschläge angenommen werden bzw. eigene Ergänzungen gemacht werden (und ggf. wie weit sie von den Vor - schlägen abweichen) Herausforderungen Es ist ggf. ein eigenes Tool zu entwickeln bzw. das Tool anzupassen. Es ist schwer zu sehen, warum Vorschläge nicht genommen werden (d.h., wie weit sie von einem guten Vorschlag enternt liegen). Chancen Ggf. kann dieses Verfahren im laufenden Betrieb eingesetzt werden und so relatv einfach (bei entsprechenden Nutzerzahlen) viele Daten gesam- melt werden. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren in der be - satz schriebenen Weise bereits zur vergleichenden Bewertung von Algorith- men zur Annotatonsvorschlägen eingesetzt wurde. Dass Vorschläge genutzt werden, wird jedoch gelegentlich als Indiz für die Qualität von Annotatonsvorschlägen gesehen. (e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatons- vorschlägen Bei den bisherigen Verfahren wurde jeweils bei der Entstehung bzw. Wahl der An - notationsvorschläge angesetzt und aus dem Verhalten von Experten oder Nutzern Ableitungen zur Qualität der Annotationsvorschläge gewonnen. Ein anderer An- satz besteht in der Analyse davon, wie brauchbar Annotationen bzw. Annotations- vorschläge für bestimmte Nutzungsszenarien sind. Alle vorgestellten Verfahren finden auf der Ebene der einzelnen Empfehlungen von Annotationen für Webmaterialien statt. Darüberhinaus könnte man, sofern ein bestimmtes Empfehlungssystem für Annotationen im Einsatz ist, auch der Ebene der Nutzung Vergleiche ziehen. Beispiel: Man lässt Nutzer Ressourcen suchen und stoppt die Zeit, bis sie Materialien finden die mit Hilfe von Annotationen, die mit dem Vorschlagsalgorithmus A gene- riert wurden. Vergleichsweise wird untersucht, ob dies (schneller) mit den Materiali- en gelingt, die mit dem Vorschlagsalgorithmus B generiert. Denkbar ist auch, Systeme zu vergleichen, wenn bekannt ist, dass unterschiedliche Annotationsempfehlungen im Einsatz sind. 37
  • 38. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen Beispiel: Man weiss von System A, dass es Annotationvorschläge nach dem Verfah- ren A macht, beim System B wird das Verfahren B genutzt. Vorausgesetzt, es wird das gleiche Material (z. B. Bücher, Musikstücke, usw.) gekennzeichnet, kann unter- sucht werden, bei welchem System schneller (oder „besser“) recherchiert werden kann. In einer unveröffentlichten Studie wurde so verglichen, wie die Recherche mit Hil- fe von Delicious (bei dem Nutzer taggen) im Vergleich zu Suchmaschinen und Webverzeichnissen abschneidet (s. Wichowski, 2009): Morrison (2007) stellte da- bei fest, dass Delicious hier einen knappen zweiten Platz einnimmt. Zudem stellte er jedoch fest, dass eine Kombination der Delicous-Tags mit einem kontrollierten Vokabular bessere Ergebnisse liefert als die Recherche in Webverzeichnissen. Parallel dazu könnte man so ein System X, bei dem der Empfehlungsalgorithmus Y für Annotationen eingesetzt wird, mit einem System W vergleichen, bei dem der Empfehlungsalgorithmus Z eingesetzt wird, sofern eine Übereinstimmung der In- halte grundsätzlich gegeben ist. Dies ist beispielsweise im Bereich von Musik- stücken, von Buchbeschreibungen oder auch einer Best-Of-Liste von Websiten durchaus realistisch. Sogenannte „Ontogames“ werden entwickelt und konzipiert um Annotationen für (oft Multimedia-) Content zu erhalten, der sonst nur schwer zu erhalten sind. Durch mitreissende, spannende Spielszenarios werden Spieler beispielsweise auf- gefordert möglichst schnell Schlagworte einzutippen bei denen Spielerteams mög- lichst viele Übereinstimmungen haben (und gegen andere Teams antreten). – So- weit zumindest kurz zusammengefasst die erste Spielidee eines „Ontogames“ wie sie in der Gruppe um von Ahn entwickelt wurden. Betrachtet man Ontogames, beispielsweise die Sammlung auf der Website ontoga- me.org, fällt es nicht schwer daraus Spielideen abzuleiten, die es ermöglichen, die Annotationsvorschläge unterschiedlicher Annotationsvorschläge „spielerisch“ be- werten zu lassen. Dazu eine ausführlichere Beschreibung eines Spiels: Die Idee des Spiels „Phetch“ ist es, mehr Informationen zu Bildern zu bekommen (vgl. von Ahn et al., 2006): Das Online-Spiel ist für je drei bis fünf Spieler entwickelt. Einer der Spieler wird zufällig als „Beschreiber“ ausgewählt, die anderen sind die „Sucher“. Der „Be- schreiber“ erhält vom Spiel ein Bild vorgelegt, das er mit einem kurzen Text be- schreiben soll, beispielsweise mit „ein weißes Gespenst steht auf der Brücke und schreit“. Die Sucher, die das Bild nicht gesehen haben, müssen nun möglichst schnell das richtige Bild mit Hilfe einer Bildersuchmaschine finden, indem sie dort nach passenden Suchbegriffen recherchieren und sich dann für ein Bild entschei- den. Wer als erstes das richtige Bild wählt, erhält Punkte und ist in der nächsten Runde der „Beschreiber“. Wenn das richtige Bild gefunden wurde, erhält natürlich auch der „Beschreiber“ Punkte. Bei folgendem Foto würden die Beschreibungen bei Phetch folgendermaßen lauten: „halb-Mann-halb-Frau mit schwarzem Haar“ 38
  • 39. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen sowie „eine abstrakte Zeichnung mit einem Mann mit einer Violine und einer Frau mit einer Flöte“ (s. von Ahn et al., 2006). Abbildung 12: Beispielabbildungen zur Beschreibung des Spieles „Phetch“. Quelle: von Ahn et al., 2006, Abbildung 1 Mit Hilfe dieses Spiels können also gute, hilfreiche Beschreibungen für Bilder ent- wickelt und validiert werden; durch den Spielcharakter kann dies mitunter recht schnell gehen, so dass in kurzer Zeit eine große Zahl von Bildern beschrieben wird. Im Vergleich mit einer Spiel-Variante (dem ESP-Game), bei der nur Schlag- worte eingegeben werden sollen zeigt sich, dass Phetch-Beschreibungen in 98,5 Prozent der Fälle richtig identifiziert wurden, hingegen traf dies nur bei 73,5 Pro- zent der Bilder mit ESP-Tags zu (von Ahn et al., 2006, 81). Unter dem Schlagwort „Ontogames“ wurden wie erwähnt in den letzten Jahren zahlreiche Ideen entwickelt, wie spielerisch Annotationen gesammelt werden können und wie diese (siehe oben) auch verglichen und bewertet werden könn- ten. Daraus lassen sich auch Spiele entwicklen und ableiten, die bei der Evaluation von Annotationsvorschlägen unterstützen können. Beispiel: In einem Spiel werden Annotationvorschläge für ein Bild angezeigt, die mit dem Algorithmus A generiert wurden, dazu das dazugehörige Bild und drei weitere Bilder aus einer Datenbank. Die Spieler sind aufgefordert, möglichst schnell das kor- rekte Bild auszuwählen. In der zweiten Runde stammt bei einem neuen Bild die Be- schreibung aus dem Algorithmus B. Die Daten werden im Hinblick darauf ausgewer- tet, wie häufig und wie schnell die Spieler die korrekten Annotationen (je Empfeh- lungsalgorithmus A oder B) gewählt haben. 39
  • 40. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen (e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatonsvorschlägen Kurzbeschreibung Die Qualität von Annotatonsvorschlägen kann spielerisch überprüf wer - den wenn es gelingt, ein anregendes Spiel zu kreieren, durch das indirekt die Qualität der Annotatonsvorschläge überprüf wird (z. B. die Spieler die Vorschläge des Vorschlagsalgorithmus A erhalten systematsch mehr Punkte als Spieler, die Vorschläge des Vorschlagsalgorithmus B erhalten). Herausforderungen Eine solche Spielidee und Anwendung muss erst entwickelt werden. Chancen Bei Gestaltung eines spannenden Spiels könnte es gelingen, hier relatv viele und gute Daten zu erhalten. Im Fokus solches Verfahren steht der „Gebrauchswert“ von Annotato - nen und weniger ihre abstrakte „Qualität“. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor- schlägen eingesetzt wurde. (f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde Beim vorherigen Abschnitt zur Bewertung von Empfehlungssystemen (vgl. S. 16 in diesem Band) wurde bereits ein Verfahren beschrieben, das auch für Bewer- tung von Annotationsvorschlägen eingesetzt werden kann. Es wird im folgenden allgemein beschrieben. Beispiel: Man nehme Ressourcen und ihre von Experten vorgenommenen Annotatio- nen (oder eine Auswahl davon). Dann lässt man das Empfehlungssystem Annotatio- nen für die Ressourcen vorschlagen und vergleicht diese Ergebnisse mit den tatsäch- lichen Annotationen der Experten. Dieses Verfahren funktioniert nur bei Systemen, die Vorschläge auf Grundlage des inhaltsbasierten Filterns geben. Sind Empfehlungsalgorithmen die Grundlage, bei der Nutzerdaten verwendet werden, muss es variiert werden. Beispiel: Bei Empfehlungsalgorithmen die z. B. auf dem kollaborativen Filtern basie- ren, kann es sinnvoll sein, nur Daten von sehr aktiven Experten zu nehmen und dann jeweils nur für einen kleineren Teil (z. B. 10 Prozent) das System Annotationsvor- schläge machen zu lassen. Diese werden wiederum mit den real existierenden Emp- fehlungen verglichen. Dieses Vorgehen wurde bereits für ein Empfehlungssystem für Musikstücke in diesem Band skizziert (vgl. Shardanand und Maes, 1995, S. 16) genauer beschrie- ben. Wählt man einen solchen Ansatz – vorausgesetzt, entsprechende Nutzerda- ten liegen vor – ist es hier sehr gut möglich (unterschiedliche) Algorithmen zu be- werten und damit „auf dem Trockenen“ Empfehlungsalgorithmen zu optimieren. 40
  • 41. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen (f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde Kurzbeschreibung Man nimmt existerende Ressourcen und ihre Annotatonen und lässt das Empfehlungssystem dafür Annotatonen vorschlagen. Dann werden die Vorschläge mit den existerenden Annotatonen verglichen. Herausforderungen Man muss Daten von Nutzern auswählen, die vorbildlich annoteren. Bei kollaboratvem Filtern muss ggf. eine entsprechende Stchprobe gezogen werden. Chancen Ein Verfahren, das erlaubt im Detail und „auf dem Trockenen“ erlaubt Feinabstmmungen von Algorithmen vorzunehmen. Abgesehen von der notwendigen Datenaufereitung sind keine speziellen Werkzeuge zu im- plementeren oder Maßnahmen zu ergreifen. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvorschlä- gen eingesetzt wurde. Dieses Verfahren wurde jedoch z. B. bei der Evaluierung von Empfeh- lungssystemen für Musikstücke eingesetzt (siehe Shardanand und Maes, 1995) (g) Die „goldene Strategie“: Vergleich mit Standarddaten Prinzipiell ist schließlich ein Verfahren denkbar, dass die Qualität von Empfehlun- gen für einen Standarddatensatz errechnen lässt. Natürlich ist dies nur für Emp- fehlungsalgorithmen denkbar, die auf inhaltsbasiertem Filtern beruhen. Bisher nur ein Gedankenspiel ist es dann, dass es anerkannte, große Testdatensätze gibt, die für Evaluationen und Ergebnisvergleiche immer wieder herangezogen wer- den. Zwar gäbe es immer Einschränkungen auf bestimmte Branchen und Themen, die in den Datensätzen im Vordergrund stehen, so eine Strategie würden aber Benchmarks ermöglichen und Vergleiche zwischen Systemen erlauben, obwohl sie nicht gleichzeitig in einem Untersuchungsdesign verwendet wurden. Beispiel: Ein Entwicklerteam prüft die Qualität ihres Empfehlungsalgorithmus mit Hilfe des etablierten Standardtestdatensatz „Golden“ und stellt fest, dass die Zahl der passenden Empfehlungen über den bisherigen Benchmarks liegt. Sie veröffentli- chen die Ergebnisse und die Fachwelt ist beeindruckt. Vergleich der Ansätze Zur besseren Übersicht werden die skizzierten möglichen Ansätze noch einmal zusammengefasst dargestellt und verglichen. 41
  • 42. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen Name Vorteil Nachteil a) Befragung von Experten Relatv valide hoher Aufwand (Befragung, extra zur Qualität der empfohle- Tool) nen Annotatonen (b) Direkter Vergleich der Relatv valide hoher Aufwand (Befragung, extra Annotatonsempfehlungen Tool, jedoch geringer als bei a) durch Befragung von Exper- ten (c) Optmierung von Emp- Durch das ofene Verfahren hoher Aufwand an das Tool fehlungsalgorithmen durch neuartge Einsichten möglich hohe Anforderung an Nutzer die Nutzer (ALOE-Ansatz) Validität eingeschränkt (d) Experimenteller Einsatz: Im laufenden Betrieb möglich Aufwand: Modifkatonen des Sys- Unterschiede in der Nutzung tems notwendig, Wahlverhalten von Annotatonsvorschlägen muss aufgezeichnet werden. Es ist schwer zu auszuwerten, warum Vorschläge nicht genom- men werden. (e) Experimentelle Nut- Im Fokus steht der „Gebrauchs- Kreatvität und eigene Lösungen zungsszenarien zur Bewer- wert“ von Annotatonen und im Hinblick auf Methode und Tool tung von Annotatonsvor- weniger ihre abstrakte „Quali- gefragt – ggf. sehr hoher Aufwand. schlägen tät“. (f) Vergleich der Annotato- Hier können „auf dem Tro- Es ist notwendig, ein Verfahren zu nen von Experten und mit ckenen“ mehrere, auch kleine entwickeln, dass die automatsche den Annotatonen, die das Varianten des Empfehlungsal- Bewertung der „Nähe“ von unter- System vorschlagen würde. gorithmus bewertet und mit- schiedlichen Annotatonen über- einander verglichen werden, nimmt (vgl. nächster Abschnit). ohne dass dazu ein großer Auf- wand für Befragungen oder Toolentwicklungen notwendig ist. (g) Die goldene Strategie Vergleiche von Empfehlungsal- Bisher nicht realisiert; zudem nur (nicht existerend) gorithmen werden möglich, für inhaltsbasiertes Filtern denk- auch wenn sie nicht getestet bar. werden. 42
  • 43. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen VORSCHLÄGE ZUR BEURTEILUNG VON NÄHE UND ABWEICHUNGEN VON ANNOTATIONEN Bei einem sehr attraktiven vorgestellten Verfahren (f) fehlt die Beurteilung, ob eine Annotation „gut oder schlecht“ ist, weil diese Einschätzung nicht von Nutze- rinnen oder Experten vorgenommen wird. Hier stellt sich die Frage, wie diese Nähe bewertet werden kann. Relativ einfach ist es, wenn das System identische Annotationen vorschlägt. Beispiel: Der Experte würde „Ananas“ als Annotation schreien, das Empfehlungssys- tem schlägt als Annotation eines Bildes „Ananas“ vor. Problematisch ist der weitaus häufigere Fall, dass die Vorschläge von den (ge- wünschten) Annotationen abweichen. Beispiel: Das Empfehlungssystem „A“ schlägt als Annotation für ein Bild „Flugzeug“ vor, das Empfehlungssystem „B“ „Jumbojet“ (vgl. S. 29 in diesem Band). Der Experte hat jedoch als Annotation „Jet“ gewählt. Ist nun die Empfehlung des Systems A oder B besser? Und auch: Um wieviel genauer ist die Empfehlung von System A oder B ggf. besser? Dieses Beispiel zeigt – zumindest ist das die Idee – dass es nicht simpel ist, eine solche Bewertung vorzunehmen. Notwendig wäre es für die Evaluation jedoch, diese Einschätzung automatisch vornehmen zu können. Begrifsähnlichkeit Ob zwei Begriffe die selbe Tatsache, oder allgemeiner, das selbe Ding beschreiben, also semantisch gleich sind, kann durch eine Analyse des semantischen Abstands ermittelt werden. Je ähnlicher sich die Begriffe in ihrer Bedeutung dabei sind, de- sto geringer wird deren Abstand. In der Mathematik ist der (minimale) Abstand zweier Punkte in einem metrischen Raum die Länge der kürzesten Verbindungsli- nie zwischen beiden. Die Berechnung der Streckenlängen wird durch die zugehö- rige Metrik vorgenommen. Im Fall der Bedeutungsähnlichkeit muss daher eine passende semantische Metrik gefunden werden. Syntaktische Metriken, also Me- triken, mit denen Aussagen über die syntaktische Ähnlichkeit getroffen werden können, führen meist nicht oder nur in Kombination mit semantischen Distanzbe- rechnungen zu verwertbaren Ergebnissen. Der Einsatz einer Metrik und die resul- tierende Ergebnisgüte hängen vom Vokabular ab und müssen ggf. im Vorfeld durch Testläufe (systematische Anwendung auf passenden Trainingsmengen und Ergebnisanalyse) entschieden werden. 43
  • 44. Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen Syntaktsche Metriken Oft werden syntaktische Metriken in der Vorverarbeitung verwendet, um zum Beispiel falsche oder unterschiedliche Schreibweisen zu korrigieren. Beispielhaft für eine syntaktische Metrik erklären wir hier die sehr gebräuchliche Levenshtein Distanz (Levenshtein, 1966). Sie ergibt sich aus der minimalen Anzahl von Schrit- ten, die benötigt werden, um einen Begriff in den anderen überzuführen, wobei nur die drei Grundoperationen „Einfügen“, „Löschen“ und „Vertauschen“ auf ein- zelnen Gliedern der Zeichenkette erlaubt sind. Wie in folgendem Beispiel klar wird, beträgt die Levenshtein Distanz der Begriffe Tier und Tor 2 (vgl. Wikipedia- Eintrag zu Levenshtein, 2011-08-13): 1. Tier → Toer (ersetze i durch o) 2. Toer → Tor (lösche e) Weitere Metriken, die für die Untersuchung syntaktischer Ähnlichkeit verwendet werden sind u.a. die Jaro-Winkler-Distanz (Winkler, 1990), der Hamming-Abstand (Hamming, 1950) und der Jaccard-Index (Jaccard, 1901). Semantsche Metriken Semantische Metriken lassen sich in zwei Gruppen einteilen: topologische und statistische. Während einer topologischen Metriken eine oder mehrere Ontologien (also sinnbehaftet verknüpfte Vokabulare) zu Grunde liegen, basieren statistische Verfahren auf so genannten Textkorpi (Sammlungen von Texten). Topologische Verfahren Topologische Verfahren verwenden als Grundlage eine oder mehrere Ontologien. Stark vereinfacht kann man ein Ontologie als eine Art gerichteten, gewichteten Graphen ansehen. Die Konzepte bilden dabei die Knoten, die Verbindungen zwi- schen den Konzepten bilden die Kanten. Die Gewichtung ergibt sich aus der se- mantischen Bedeutung der Kante. Je nach Typ verwenden topologische Verfahren Instanzen einer Ontologie und/oder die Ontologie selbst. Das folgende Beispiel beschreibt kein bestimmtes Verfahren, es soll nur einen ers- ten Einblick in die Welt der topologischen Ähnlichkeitsmessung liefern. Den Gra- phen einer sehr einfachen Ontologie zeigt Abbildung 13. Sie beschreibt ein Sche- ma für Personen und deren berufliche Ausrichtung. Den Kanten wurden aus Grün- den der Übersichtlichkeit keine Namen bzw. Richtungen zugeordnet. 44
  • 45. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Abbildung 13: Einfacher Beispielgraph. Basierend auf der Ontologie kann man nun a) die Ähnlichkeit der ontologischen Konzepte selbst oder b) die Ähnlichkeit verschiedener Instanzen der Ontologie betrachten. a) Ähnlichkeit ontologischer Konzepte Ein einfaches Distanzmaß in einem Graphen ist das des kürzesten Weges. Es ge- nügt, die Anzahl der Kanten zu zählen, die auf diesem Weg zwischen zwei Konzep- ten liegen. So ergibt sich aus obigen Beispiel, dass das Konzept Maler dem Kon- zept Musiker ähnlicher ist (Distanz 2) als dem des Politikers (Distanz 3). Auch ist in diesem Beispiel das Konzept der Romantik in der Musik seinem literarischen Pendant näher als dem der musischen Klassik. b) Ähnlichkeit ontologischer Instanzen Angenommen, es existieren drei Instanzen der obigen Ontologie: Mozart (Musiker – Klassik), Trakl (Schriftsteller – Symbolismus) und Josef II (Politiker). Geht man bei den Instanzen so vor, wie oben bei der konzeptionellen Berechnung, beträgt der Abstand zwischen Mozart, Trakl und Josef II jeweils 4. Berücksichtigt man nun zusätzlich instanzenspezifische Merkmale wie das Geburtsdatum der Personen verändert sich dieser Abstand. Der Abstand von Mozart zu Josef II beträgt 15 Jah- re, von Mozart und Trakl 131 Jahre. Bezieht man also das Geburtsjahr der Perso- nen in die Berechnung der semantischen Distanz ein, ist Mozart Josef II ähnlicher als Trakl. Berücksichtigt man zusätzlich weitere Eigenschaften, z.B. den Geburts- ort, rücken Mozart und Trakl (beide in Salzburg geboren) wieder näher zusam- men. Wie die Kanten einer Ontologie in die eines gewichteten Graphen umgesetzt werden und welche Faktoren in die Gesamtberechnung einfließen, wird in diver- sen Algorithmen unterschiedlich behandelt. Die Semantik der Relationen lässt sich in einem solchen Model durch die Gewichtung der Kanten ausdrücken. So hat der Pfad „Romantik (Literatur) ist verwandt zu Romantik (Musik)“ ggf. ein gerin- geres Kantengewicht als der Pfad „Musiker ist Vertreter der Epoche Romantik“. Beispiele für topologische Verfahren sind simGIC (Pesquita u.a., 2008), GraSM (Couto, Silva & Coutinho, 2007) und LDSD (Passant, 2010). 45
  • 46. Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen Statstsche Verfahren Statistische Verfahren gründen auf der Analyse einer a-priori definierten Menge von textuellen Inhalten (Textkorpus). Diese Methoden bieten den Vorteil, dass sie bei genügend großer Trainingsmenge/-zeit für das eigentliche Berechnen der Ab- stände wenig Zeit benötigen (im Vergleich zu z.B. topologischen Verfahren) und in vielen Fällen ausreichend gute Ergebnisse liefern. Die Menge der statistischen Verfahren ist sehr groß, es werden hier deshalb nur zwei Verfahren näher erläu- tert. a) Latent Semantic Analysis Das Latent-Semantic-Analysis-Verfahren (LSA) beruht auf der Vermutung, dass Begriffe mit ähnlicher Bedeutung (bzw. aus der selben Begriffswelt) in Texten nä- her beieinander stehen als nicht sinnverwandte. Mit diesem Verfahren ist es mög- lich, diese benachbarten Begriffe zu finden und einem Hauptkonzept (Hauptkom- ponente) zuzuordnen. So werden beispielsweise die Begriffe PKW, Wagen und Rostlaube dem Konzept Auto zugeordnet. Der mathematische Hintergrund des LSA-Algorithmus basiert auf den mathemati- schen Prinzipien Singulärwertzerlegung und Dimensionsreduktion und kann z.B. bei Dumais (2004) genauer studiert werden. Ein Problem des LSA ist, dass beim Hinzukommen von neuen Begriffen (also bei einer Erweiterung des Textkorpus) die gesamte A-Priori-Berechnung wiederholt werden muss. Auch die richtige Wahl der Dimensionsgröße kann ein Problem dar- stellen: Ist sie zu klein, leidet die Ergebnisgüte; ist sie zu groß, kann es zu Ressour- cenproblemen (Rechenleistung, Speicher) kommen. b) Normalisierte Google-Distanz Die normalisierten Google-Distanz (NGD) basiert auf der Annahme, das verwand- te Konzepte oft zusammen im gleichen Text vorkommen. Als Korpus dient der ak- tuelle Google Index. Der erste Schritt für die Berechnung besteht darin, die Anzahl der Suchtreffer für die beiden Konzepte zu ermitteln. Zusätzlich wird die Anzahl der Treffer einer Anfrage mit beiden Konzepten (mit logischem UND verbunden) und die Gesamtanzahl der indizierten Seiten benötigt. Die NGD wird mittels der folgenden Formel berechnet. Abbildung 14: Normalisierte Google Distanz. Quelle: Cilibrasi & Vitanyi (2007) Dabei sind x und y die beiden Begriffe, f die Funktion, die eine Suchanfrage auf die Mächtigkeit deren Ergebnismenge abbildet, und M die Gesamtanzahl der von Goo- gle indizierten Seiten. Weitere Informationen zu NGD finden sich in bei Couto, Sil- va & Coutinho (2007). Weitere Beispiele für statistische Verfahren sind PMI (Bou- ma, 2009), SOC-PMI (Islam & Inkpen, 2008) und ESA (Gabrilovich & Markovitch, 2007). 46
  • 47. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen MÖGLICHE KENNZAHLEN ZUR BEWERTUNG VON ANNOTATIONSVOR- SCHLÄGEN Es wurden bereits mehrere Verfahren genannt, die bei der Bewertung von Anno- tationsvorschlägen zum Einsatz kommen können. Ergänzend möchten wir Kenn- zahlen beschreiben, die bei der Beurteilung hilfreich sein können. Es zeigt sich da- bei, dass Kennzahlen wie die „Neuigkeit“ oder „Recall“ wenig Sinn machen, wenn es um die Bewertung von Annotationvorschlägen geht. So sollte ein Buchvor- schlag bei Amazon z.B. einem Harry-Potter-Fan nicht alte Harry-Potter-Bücher vorschlagen sondern etwas Neues, was er (eher) noch nicht kennt – bei Annotati- onsvorschlägen ist jedoch kein „Neuigkeitsfaktor“ erwünscht: Es macht in der Re- gel keinen Sinn, Nutzern möglichst neuartige Annotationen vorzuschlagen. Mögliche Kennzahlen Im Folgenden skizzieren wir mögliche Kennzahlen, die bei der Bestimmung der Qualität von Annotationsvorschlägen zum Einsatz kommen könnten. Abdeckung: Anteil der Ressourcen, zu denen Annotatonvorschläge gemacht werden können Nicht in jedem Fall können Systeme Annotationen vorschlagen. Eine interessante Kennzahl ist so der Anteil, zu dem ein Algorithmus überhaupt Empfehlungen be- rechnen kann. Anteil der Fehler bei Annotatonsvorschlägen Manchmal ist möglich, eindeutig von „Fehlern“ bei den Annotationsvorschlägen zu schreiben. Der mittlere Fehler und die Standardabweichung für Fehler sind hier mögliche Kennzahlen. Präzision In Anlehnung an Herlocker (2004) könnte der Anteil der Annotationvorschläge, die als korrekt und relevant eingestuft werden als „Präzision“ bezeichnet werden. Nähe „Daneben ist auch vorbei“ ist eine Redensart, aber es kann eventuell Sinn machen zu bestimmen, wie „nah“ der Annotationsvorschlag an einer gewünschten Lösung ist. 47
  • 48. Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen Anmerkung zur Bewertung von Unterschieden Das angestrebte Ergebnis aller skizzierter Verfahren ist jeweils (vereinfacht) eine Aussage der Art – Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4 – Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6 Jedoch ist ein Unterschied von Mittelwerten u.ä. nicht notwendigerweise eine ge- eignete Grundlage für die Entscheidung für oder gegen einen bestimmten Algo- rithmus. Je nach Umfang der Datenquelle oder Stichprobe können solche Unter- schiede auch im Rahmen von zufälligen Schwankungen entstehen und sind nicht notwendigerweise ein als statistisch signifikantes Indiz für einen besseren bzw. schlechteren Empfehlungsalgorithmus zu bewerten. Zur Auswertung und Inter- pretation solcher Daten, beispielsweise Mittelwertunterschieden, ist dabei auf Verfahren wie den T-Test bzw. auf die allgemeine statistische Methodenliteratur zu verweisen (z. B. Bortz & Döring, 2006). Diskussion Bei unseren internen Diskussionen zeigte sich, dass die dargestellten Optionen für Kennzahlen nicht für jeden Experten sinnvoll erschienen bzw. innerhalb des Salz- burg NewMediaLabs deutlich unterschiedliche Abwägungen getroffen werden. Während die Forscher/innen eher klassische wissenschaftliche Gütekriterien ei- nes Empfehlungssystem erheben möchten und dabei auch einen möglichst hohen durchschnittlichen Wert erhalten wollen, haben die Archivare deutlich andere Be- dürfnisse: Ein Empfehlungssystem, das im Mittel „passable“ Empfehlungen gibt, ist für sie nicht unbedingt gut. Auch muss ein Empfehlungssystem aus ihrer Sicht nicht unbedingt eine gute Abdeckung haben (also für jeden Content Empfehlun- gen für Annotationen generieren können). Für die Archivare ist vielmehr wichtig, dass Annotationsvorschläge, schlichtweg sehr gut sein müssen – es aber gar nicht schlimm ist, wenn das System nichts empfiehlt, wenn es nichts „sehr gutes“ zu empfehlen hat. In der Praxis ist es einfach lästig, viele „weniger gute“ oder unge- eignet Vorschläge lesen oder löschen zu müssen. Auch wurde wiederum von den Archivaren darauf hingewiesen, dass ein Empfeh- lungssystem für Annotationen unbedingt lernen müsse. Es mache schlichtweg kei- nen Spaß und sei ermüdend, immer wieder Ähnliches korrigieren oder ablehnen zu müssen, diese Arbeit würde jedoch gerne gemacht, wenn das System dadurch bessere Empfehlungen geben könnte. 48
  • 49. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen LITERATUR UND QUELLEN • von Ahn, L.; Ginosar, S., Kedia, M., Liu, R. & Blum, M. (2006). Improving Accesibility of the Web with a Compu- ter Game. Proceedings of the SIGCHI conference on Human Factors in computng systems table of contents, Montréal, Québec, Canada, 79-82. • Ames, Morgan & Naaman, Mor (2007). Why We Tag: Motvatons for Annotaton in Mobile and Online Media. Online verfügbar: htp://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=BE3E2E214C7C94F819FF65112A8B6696? doi=10.1.1.90.4934&rep=rep1&type=pdf [2011-02-01] • Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluaton für Human- und Sozialwissenschafler (4. Aufage). Berlin: Springer. • Bouma, G. (2009). Normalized (Pointwise) Mutual Informaton in Collocaton Extracton. Proceedings of Ge- sellschaf für Sprachtechnologie & Computerlinguistk (GSCL). • Brand-Haushofer, Richard (2005). Recommender Systeme in digitalen Bibliotheken. Bakk. Arbeit. Insttut: In- formatonsverarbeitung., Abt. f. Informatonswirtschaf. Wien, Wirtschafsuniv.. Online zugänglich unter: htp://epub.wu-wien.ac.at/dyn/virlib/bakkWI/showentry?ID=epub-wu-01_93d&style=aihtml (2010-01-04) • Camon, Evelyn B.; Barrell, Daniel G.; Dimmer, Emily C.; Lee, Vivian; Magrane, Michele; Maslen, John; Binns, David & Apweiler, Rolf (2005). An evaluaton of GO annotaton retrieval for BioCreAtIvE and GOA, In: BMC Bioinformatcs 2005, 6 (Suppl 1):S17doi:10.1186/1471-2105-6-S1-S17 • Carneiro, Gustavo; Chan, Antoni B.; Moreno, Pedro J. & Vasconcelos, Nuno (2007). Supervised Learning of Se- mantc Classes for Image Annotaton and Retrieval. In: IEEE Transactons on Patern Analysis and Machine In - telligence (TPAMI), March 2007 (Vol. 29, No. 3), pp. 394-410. • Cilibrasi, Rudi & Vitanyi, Paul (2007). The Google Similarity Distance, IEEE Trans. Knowledge and Data Engi- neering, 19:3(2007), 370-383. • Couto, F., Silva, M., & Coutnho, P. (2007). Measuring semantc similarity between Gene Ontology terms. In: Data and Knowledge Engineering, 61:137–152 • Derntl, Thomas; Hampel, Thorsten; Motschnig, Renate & Pitner, Tomas (2009). Social Tagging und Inclusive Universal Access. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 51-71. • Dolog, Peter (2009). Tag Based Recommendaton in KIWI. OntologSession, 12 February 2009. Online zugäng- lich unter: htp://ontolog.cim3.net/fle/work/SemantcWiki/SWiki-05_Applicaton-2_20090212/Tag-based- Recommendatons-in-KIWI--PeterDolog_20090212.pdf (2010-02-18) • Dumais, S. T. (2004). Latent semantc analysis. Annual Review of Informaton Science and Technology (ARIST), Volume 38, Chapter 4, 189-230. • Gabrilovich, E. & Markovitch, S. (2007). Computng Semantc Relatedness using Wikipedia-based Explicit Se- mantc Analysis. In: Proceedings of the 20th Internatonal Joint Conference on Artfcial Intelligence , Hydera- bad, India. • Güntner, Georg; Sint, Rolf & Westenthaler, Rupert (2009). Ein Ansatz zur Unterstützung traditoneller Klassif- katon durch Social Tagging. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 187-199. • Hamming, R.W. (1950). Error-detectng and error-correctng codes. In: Bell System Technical Journal XXIX (2): 147-160. 49