6. 6
RS: Komponenten
Ziele des RS
(Zusatz-) Informationen bereitstellen
Entscheidungshilfen, Referenzen bieten
User model
Erreichen der Ziele benötigt
personifizierte Informationen
abhängig von der Domäne
Umgebungsvariablen
Wohldefiniertheit der Items
Erstellung und Wartung von Metadaten
stark Domänenabhängig
Verkauf von Zusatzprodukten
Loyalität aufbauen (Konkurrenz Klick
entfernt)
PG:
eigene Publikationen, selbst referenziert
bereits bewertet
Überfluss an Informationen
Echtzeit
Arbeiten mit Stereotypen 8
8. 8
RS: inhaltsbasierte Techniken
schätze u(c, s) durch die Suche nach u(c, ) ab
wobei Item möglichst ähnlich zu s ist
gutes c durch Benutzerprofile: ContentBasedProfile(c)
explizit: z.B. Befragung, Formulare
implizit: Mitschnitt des Nutzerverhaltens über die Zeit
gutes s durch Itemprofile: Content(s)
charakteresierende Attribute extrahieren: z.B. Keywords
Gewichte für Wichtigkeit: z.B. TF-IDF
Gesucht usefulness u: C x S → R
si
si
9. 9
RS: Kategorie CB
Name Herangehensweise Vorteile Nachteile
inhaltsbasierte Techniken (CB)
rating-based ähnliche
Bewertungen
↔
ähnlicher
Geschmack
des einzelnen
Nutzers
- Domänenunabhängig
- verbessert sich über
die Zeit
- cold-start-Problem
- new-user-Problem
- nur begrenze Vorschläge
attribute-based gewichte
Item-Attribute
↔
Benutzer-Attribute
- kein cold-start-
Problem
- kein new-user-
Problem
- regiert gut auf
Änderungen
- nur parsebare Inhalte
- lernt nicht über die Zeit
- funktioniert nur mit
Kategorien
- erfordert Wartung/
Kategorisierung
- Güte nicht ableitbar
- redundante Vorschläge
10. 10
RS: kollaborative Techniken
schätze u(c, s) durch die Suche nach u( , s) ab
wobei User möglichst ähnlich zu c ist: user peers
memory/heuristic-based: auf vorangegangenen Bewertungen
gesucht: unbekannte Wertung:
C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben
wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete
Summe, angepasste gewichtete Summe
model-based
Modell lernt und macht dann eine Vorhersage: W'keit, dass
Nutzer bestimmtes Rating zu Item abgibt
Auflösung der W'keiten durch User-Cluster und Bayes-
Netzwerke
Gesucht usefulness u: C x S → R
ci
ci
rc , s
11. 11
RS: Kategorie CF
Name Herangehensweise Vorteile Nachteile
kollaborative Techniken (CF)
user-based/
item-based
ähnliche
Bewertungen
↔
ähnlicher
Geschmack
der verschiedene
Nutzer
- keine Inhaltsanalyse
nötig
- Domänenunabhängig
- verbessert sich über
die Zeit
- Zufallsfunde möglich
- cold-start-Problem
- beliebter Geschmack
- Skalierbarkeit
- Seltenheit
- ”Rauschen”
– Skala nicht klar
– Grund für Abstimmung
Stereotypen
oder
Demografien
clustert Nutzer
anhand bekannter
Attribute
- kein cold-start-
Problem
- Domänenunabhängig
- Zufallsfunde möglich
- Informationsbeschaffung/
Metadaten
- unzureichende
Informationen
- nur beliebter Geschmack
- Wartung
12. 12
RS: hybride Techniken
hybride Techniken
implementieren CB und CF Technik separat
kombinieren Ausgabe
abhängig vom Szenario für ”bessere” entscheiden
13. 13
char. Attribute gewichten: TF-IDF
Keyword , Dokument
Anzahl der Vorkommnisse von in Dokument
s = ”Das rote Auto hält an der roten Ampel” = 2
Vorkommenshäufigkeit: normalisierte Häufigkeit von in :
ki s j
f i , j ki s j
f rot , s
TFi, j ki s j
TFi, j=
f i , j
maxz f z , j
14. 14
char. Attribute gewichten: TF-IDF
S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword
Inserve Dokumentenhäufigkeit: misst Relevanz zu
anderen Dokumenten
Gewicht von Keyword im Dokument wird berechnet:
Content( ) = ( , …, )
TFi, j=
f i , j
maxz f z , j
si ki
IDF i=log
S
si
wi , j ki s j
wi , j=TFi , j∗IDFi
s j w1, j
wk , j
Vorkommenshäufigkeit:
15. 15
CB: Bayes-Klassifikator
model-based Ansatz
lernt aus statischem Wissen einer Trainingsmenge
überträgt Wissen auf unbekannte Szenarien
Beispiel Webseiten-Klassifikator:
gesucht: W'keit das Webseite zu der Klasse
(relevant/irrelevant) gehört
P( | & … & )
gegeben: Keywords auf Seite : , …,
Ann.: Keywords unabhängig
pj Ci
Ci k1, j kn, j
pj k1, j
kn, j
PCi∗∏x Pkx , j .Ci
16. 16
RS: Algorithmen
Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)
Technisches Richtmaß:
Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz
Deckungsgrad (coverage): Anteil der Items für die RS eine
Vorhersage treffen kann
allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …
Vorgehen:
durch Heuristiken oder Modelle die usefulness Funktion u
bestimmen und empirisch untersuchen
die Funktion abschätzen, um bestimmte Kriterien zu verbessern
17. 17
IR & RS in der PG
Inhaltsanalysen liefern Keywords
nicht eindeutig und synonym
Zitierung ähnlich wie Bewertung
Matthew Effect, Eigenzitierung
Referenzen und Autoren ergeben Cluster
mehrdeutige Autorennamen
Lesezeichen und Downloads ermöglichen
kontinuierliche Beobachtung
Implizite und explizite Bewertungen
Mindestanzahl an Nutzern notwendig
19. 19
Literatur
[Drachsler2007]
Recommendations for learners are different : Applying memory-based recommender system
techniques to lifelong learning
[Drachsler2009]
Identifying the Goal, User model and Conditions of Recommender Systems for Formal and
Informal Learning
[Kargioti2010]
Supporting Emergent Learning through Social Recommendations
[Adomavicius2005]
Toward the next generation of recommender systems: a survey of the state-of-the-art
and possible extensions
[Gipp2009a]
Scienstein: A research paper recommender system