Information Retrieval und Recommender Systems

Information Retrieval
und
Recommender Systems
H R

4
Gliederung
 Komponenten
 allgemeine Definition
 Techniken
 Algorithmen
Recommender Systems
IR & RS in der PG

5
Social Information Retrieval
Extrahierung Speicherung Abruf
Parser/Crawler Storage Retrieval
{Bild
Mähdrescher}
{Bild
Speicher}
{Bild
Lupe}

6
RS: Komponenten
Ziele des RS
 (Zusatz-) Informationen bereitstellen
 Entscheidungshilfen, Referenzen bieten
User model
 Erreichen der Ziele benötigt
personifizierte Informationen
 abhängig von der Domäne
Umgebungsvariablen
 Wohldefiniertheit der Items
 Erstellung und Wartung von Metadaten
 stark Domänenabhängig
 Verkauf von Zusatzprodukten
 Loyalität aufbauen (Konkurrenz Klick
entfernt)
 PG:
 eigene Publikationen, selbst referenziert
 bereits bewertet
 Überfluss an Informationen
 Echtzeit
 Arbeiten mit Stereotypen 8

7
RS: allgemeine Definition
Nutzer C Items S
Gesucht usefulness u: C x S → R
{Bild
GruppeUser}
{Bild
GruppeDateien}

8
RS: inhaltsbasierte Techniken
 schätze u(c, s) durch die Suche nach u(c, ) ab
 wobei Item möglichst ähnlich zu s ist
 gutes c durch Benutzerprofile: ContentBasedProfile(c)
 explizit: z.B. Befragung, Formulare
 implizit: Mitschnitt des Nutzerverhaltens über die Zeit
 gutes s durch Itemprofile: Content(s)
 charakteresierende Attribute extrahieren: z.B. Keywords
 Gewichte für Wichtigkeit: z.B. TF-IDF
si
si

9
RS: Kategorie CB
Name Herangehensweise Vorteile Nachteile
inhaltsbasierte Techniken (CB)
rating-based ähnliche
Bewertungen
↔
ähnlicher
Geschmack
des einzelnen
Nutzers
- Domänenunabhängig
- verbessert sich über
die Zeit
- cold-start-Problem
- new-user-Problem
- nur begrenze Vorschläge
attribute-based gewichte
Item-Attribute
↔
Benutzer-Attribute
- kein cold-start-
Problem
- kein new-user-
Problem
- regiert gut auf
Änderungen
- nur parsebare Inhalte
- lernt nicht über die Zeit
- funktioniert nur mit
Kategorien
- erfordert Wartung/
Kategorisierung
- Güte nicht ableitbar
- redundante Vorschläge

10
RS: kollaborative Techniken
 schätze u(c, s) durch die Suche nach u( , s) ab
 wobei User möglichst ähnlich zu c ist: user peers
 memory/heuristic-based: auf vorangegangenen Bewertungen
 gesucht: unbekannte Wertung:
 C' Menge ähnlicher Nutzer (aus N), die Item s bewertet haben
 wähle z.B. einfacher Durchschnitt ihrer Bewertungen, gewichtete
Summe, angepasste gewichtete Summe
 model-based
 Modell lernt und macht dann eine Vorhersage: W'keit, dass
Nutzer bestimmtes Rating zu Item abgibt
 Auflösung der W'keiten durch User-Cluster und Bayes-
Netzwerke
ci
ci
rc , s

11
RS: Kategorie CF
Name Herangehensweise Vorteile Nachteile
kollaborative Techniken (CF)
user-based/
item-based
ähnliche
Bewertungen
↔
ähnlicher
Geschmack
der verschiedene
Nutzer
- keine Inhaltsanalyse
nötig
- verbessert sich über
die Zeit
- Zufallsfunde möglich
- cold-start-Problem
- beliebter Geschmack
- Skalierbarkeit
- Seltenheit
- ”Rauschen”
– Skala nicht klar
– Grund für Abstimmung
Stereotypen
oder
Demografien
clustert Nutzer
anhand bekannter
Attribute
- kein cold-start-
Problem
- Zufallsfunde möglich
- Informationsbeschaffung/
Metadaten
- unzureichende
Informationen
- nur beliebter Geschmack
- Wartung

12
RS: hybride Techniken
hybride Techniken
 implementieren CB und CF Technik separat
 kombinieren Ausgabe
 abhängig vom Szenario für ”bessere” entscheiden

13
char. Attribute gewichten: TF-IDF
 Keyword , Dokument
 Anzahl der Vorkommnisse von in Dokument
 s = ”Das rote Auto hält an der roten Ampel” = 2
 Vorkommenshäufigkeit: normalisierte Häufigkeit von in :
ki s j
f i , j ki s j
f rot , s
TFi, j ki s j
TFi, j=
f i , j
maxz f z , j

14
char. Attribute gewichten: TF-IDF
 S Anzahl aller Dokumente, Anzahl Dokumente mit Keyword
 Inserve Dokumentenhäufigkeit: misst Relevanz zu
anderen Dokumenten
 Gewicht von Keyword im Dokument wird berechnet:

 Content( ) = ( , …, )
TFi, j=
f i , j
maxz f z , j
si ki
IDF i=log 
S
si

wi , j ki s j
wi , j=TFi , j∗IDFi
s j w1, j
wk , j
Vorkommenshäufigkeit:

15
CB: Bayes-Klassifikator
 model-based Ansatz
 lernt aus statischem Wissen einer Trainingsmenge
 überträgt Wissen auf unbekannte Szenarien
 Beispiel Webseiten-Klassifikator:
 gesucht: W'keit das Webseite zu der Klasse
(relevant/irrelevant) gehört
P( | & … & )
 gegeben: Keywords auf Seite : , …,
 Ann.: Keywords unabhängig
pj Ci
Ci k1, j kn, j
pj k1, j
kn, j
PCi∗∏x Pkx , j .Ci

16
RS: Algorithmen
 Standarddatensatz für Benchmarks (MovieLens, Book-Crossing, …)
 Technisches Richtmaß:
 Genauigkeit (accuracy): Entfernung von echten Nutzerpräferenz
 Deckungsgrad (coverage): Anteil der Items für die RS eine
Vorhersage treffen kann
 allgemeine: Laufzeit, Speicherbedarf, Skalierbarkeit, …
 Vorgehen:
 durch Heuristiken oder Modelle die usefulness Funktion u
bestimmen und empirisch untersuchen
 die Funktion abschätzen, um bestimmte Kriterien zu verbessern

17
IR & RS in der PG
 Inhaltsanalysen liefern Keywords
 nicht eindeutig und synonym
 Zitierung ähnlich wie Bewertung
 Matthew Effect, Eigenzitierung
 Referenzen und Autoren ergeben Cluster
 mehrdeutige Autorennamen
 Lesezeichen und Downloads ermöglichen
kontinuierliche Beobachtung
 Implizite und explizite Bewertungen
 Mindestanzahl an Nutzern notwendig

18
Danke für Ihre Aufmerksamkeit!

19
Literatur
 [Drachsler2007]
Recommendations for learners are different : Applying memory-based recommender system
techniques to lifelong learning
 [Drachsler2009]
Identifying the Goal, User model and Conditions of Recommender Systems for Formal and
Informal Learning
 [Kargioti2010]
Supporting Emergent Learning through Social Recommendations
 [Adomavicius2005]
Toward the next generation of recommender systems: a survey of the state-of-the-art
and possible extensions
 [Gipp2009a]
Scienstein: A research paper recommender system

Information Retrieval und Recommender Systems

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (18)

Similaire à Information Retrieval und Recommender Systems

Similaire à Information Retrieval und Recommender Systems (14)

Information Retrieval und Recommender Systems