SlideShare une entreprise Scribd logo
1  sur  41
Télécharger pour lire hors ligne
Ansätze für gemeinschaftliches Filtering

Matthias Attenbrunner
06.Dezember 2013
Seminar zur Personalisierung großer Daten
Übersicht:
1.
2.
3.
4.
5.
6.

Problemdarstellung
Definition von gemeinschaftlichen Filtering
Arten des gemeinschaftlichen Filtering
Grundlagen des gemeinschaftlichen Filtering
Model Based (Modellbasierende) Algorithmen
Memory Based (Speicherbasierende) Algorithmen
a) User-Based Collaborated Filtering
b) Item-Based Collaborated Filtering
c) Vergleich
7. Vor- und Nachteile
8. Einsatzgebiete
Ansätze für gemeinschaftliches Filtering

2
1. Problemdarstellung

Ansätze für gemeinschaftliches Filtering

3
1. Problemdarstellung:

• Große Informationsflut seit Anfang der 90er
 Verlust der Übersicht des Einzelnen über die
Informationen, die er benötigt oder nützlich sind


Unternehmen müssen neue Wege finden die
Informationen neu zu bewerten und zu nutzen

Ansätze für gemeinschaftliches Filtering

4
1. Problemdarstellung:

• Unterschiede des Internets zu andere
Massenmedien
 One-To-Many-Kommunikation: Fernsehen,
Radio, etc
 Many-To-Many-Kommunikation: Internet

Ansätze für gemeinschaftliches Filtering

5
2. Definition von gemeinschaftlichen Filtering

Ansätze für gemeinschaftliches Filtering

6
2. Definition von gemeinschaftlichen Filtering:

Ansätze für gemeinschaftliches Filtering

7
3. Arten des gemeinschaftlichen Filtering

Ansätze für gemeinschaftliches Filtering

8
3. Arten des gemeinschaftlichen Filtering:

Ansätze für gemeinschaftliches Filtering

9
4. Grundlagen des gemeinschaftlichen Filtering

Ansätze für gemeinschaftliches Filtering

10
4. Grundlagen des gemeinschaftlichen Filtering:

Grundidee:
Hat man eine große Anzahl an Benutzern und ihre
Bewertungen bzw Gewohnheiten, kann man diese
vergleichen, Ähnliche finden und daraus Lücken in den
Bewertungen dieser Benutzer schließen.

Ansätze für gemeinschaftliches Filtering

11
4. Grundlagen des gemeinschaftlichen Filtering:

Ansätze für gemeinschaftliches Filtering

12
4. Grundlagen des gemeinschaftlichen Filtering:

• Erhebung von Benutzerdaten:
– Logindaten (z.B.: Seitenaufrufe, Logindauer, …)
– Suchanfragen
– Kommentare
– Befragungen
– Bewertungen
•
•
•
•

nominale Daten (z.B.: Augenfarbe, Gut/Schlecht, 1/0, …)
ordinale Daten (z.B.: {schlechter, schlecht, neutral, gut, besser})
interval (z.B.: Kalenderdaten, Temperatur in Grad/Fahrenheit, …)
Ratio (z.B: Alter, Längenangaben, …)

– sekundäre Erhebung (z.B.: Ankauf von existierenden
Matrizen)
Ansätze für gemeinschaftliches Filtering

13
4. Grundlagen des gemeinschaftlichen Filtering:

• Proximitätsberechnung:
Berechnung der Ähnlichkeit zwischen dem aktiven Benutzer
bzw. dessen bewertete Items mit denen in der Datenbank
gespeicherten.

Ansätze für gemeinschaftliches Filtering

14
4. Grundlagen des gemeinschaftlichen Filtering:

• Auswahl der Mentoren:
1. Ähnlichkeit muss berechnet worden sein
2. Die Mentoren müssen sich um mindestens einmal
unterscheiden
3. Die Mentoren können eine Mindestähnlichkeit besitzen
4. Die Mentoren können nur eine positive
Mindestähnlichkeit besitzen

Ansätze für gemeinschaftliches Filtering

15
4. Grundlagen des gemeinschaftlichen Filtering:

• Prognose:
Berechnung von Prognosen auf der Bewertungen der zuvor
ausgewählten Mentoren.

Ansätze für gemeinschaftliches Filtering

16
5. Model Based (Modellbasierende) Algorithmen

Ansätze für gemeinschaftliches Filtering

17
5. Model Based (Modellbasierende) Algorithmen:

• Grundidee:
1. Auswahl sog. Trainingssets (eine aus der Datenmatrix
ausgewählte Teilmatrix)
2. Offlineberechnung der Parameter eines Modells
3. Berechnung der Prognose auf Basis der Parameter

Ansätze für gemeinschaftliches Filtering

18
5. Model Based (Modellbasierende) Algorithmen:

• Vorteile:
Prognose, die online berechnet wird, ist viel schneller

• Nachteile:
Bei der Modellbildung kann ein Informationsverlust
entstehen

Ansätze für gemeinschaftliches Filtering

19
5. Model Based (Modellbasierende) Algorithmen:

• Arten:
– Clustermodelle
– Bayessche Netzwerke
– Regelbasierende (rule-based) Annäherung
– Neuronale Netzwerke
– ….

Ansätze für gemeinschaftliches Filtering

20
6. Memory Based (Speicherbasierende)
Algorithmen

Ansätze für gemeinschaftliches Filtering

21
6. Memory Based (Speicherbasierende) Algorithmen:

Definition:
– Liste von m Benutzer :
– Liste von n items (Artikel/Objekte):
– Liste von items von Benutzer ui :
– Liste von Benutzer von item ii :
– Aktiver Benutzer:
– Rating von Benutzer u und item i :

Ansätze für gemeinschaftliches Filtering

U = {u1, u2, … , um}
I = {i1, i2, … , in}
Iui
Uii
ua
rui

22
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Grundlagen:
1.

Die Ähnlichkeiten der Benutzer berechnen und in eine
(Benutzer X Benutzer) – Matrix eintragen

2.

Auswahl der k ähnlichsten Nachbarn (Mentoren)

3.

Berechnung der Fehlenden Bewertungen auf Basis der k Mentoren

Ansätze für gemeinschaftliches Filtering

23
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Proximitätsberechnung:
• Betrachtung der Informationen als Vektoren
• Berechnung der Ähnlichkeit über die Cosinus-VektorÄhnlichkeit

xa  xb
cos( xa , xb ) 
xa xb
Ansätze für gemeinschaftliches Filtering

24
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Proximitätsberechnung:
• Übertragen auf das Bewertungssystem indem ein Benutzer u als xu
betrachtet wird
• xui = rui falls eine Bewertung bei i vor liegt und anders 0

Formel für Benutzer u und v:

CV (u, v)  cos( xu , xv ) 

r r

iI uv

ui vi

2
2
rui  rvj


iI u

jI v

Iuv beschreibt die Items die beide Benutzer bewertet haben
Ansätze für gemeinschaftliches Filtering

25
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Proximitätsberechnung:
 Rausfilten der Mittleren Differenz und der Unterschiedlichen
Bewertungsarten der Benutzer u und v
 Verwendung der Pearson Korrelation

PC (u, v) 

 (r

iI uv

 (r

iI uv

ui

ui

 ru )(rvi  rv )

 ru )

2

 (r

iI uv

Ansätze für gemeinschaftliches Filtering

vi

 rv )

2

26
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Berechnung der wahrscheinlichen Bewertung:
• Berechnung über das arithmetisches Mittel:

ˆ
rui

r

 f (r
vU

vU

vi

vi

)

wobei rvi = 0 falls nicht bewertet und

f :   {0,1} :

{

0, falls keine Bewertung vorliegt
1, falls eine Bewertung vorliegt

Ansätze für gemeinschaftliches Filtering

27
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Berechnung der wahrscheinlichen Bewertung:
• Berechnung über die Summation der Top-N-Bewertungen:

1
ˆ
rui 
N i (u )

r

vi
vN i ( u )

wobei N(u) die k-nähesten-Nachbarn von u sind und Ni(u) die
das Item i bewertet haben.
 Problem: Alle Mentoren zählen gleich viel
Ansätze für gemeinschaftliches Filtering

28
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Berechnung der wahrscheinlichen Bewertung:
• Berechnung über die gewichtete Summation der Top-NBewertungen :

ˆ
rui 

w

vN i ( u )

r

uv vi

w

vN i ( u )

uv

wobei wuv die Ähnlichkeit der Benutzer angibt.
 Problem: Benutzer verwenden verschiedene Bewertungen
Ansätze für gemeinschaftliches Filtering

29
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Berechnung der wahrscheinlichen Bewertung:
• Berechnung über den Ansatz von Resnick und Breese (Mittlere
Zentrierung):

w
ru

ˆ
rui  r u 

vN i ( u )

uv

(rvi  rv )

w

vN i ( u )

uv

wobei r udas arithmetische Mittel.
 Problem: Erfasst nicht wie weit die Bewertungen variieren
Ansätze für gemeinschaftliches Filtering

30
6. Memory Based (Speicherbasierende) Algorithmen:
a) User-Based Collaborated Filtering

Berechnung der wahrscheinlichen Bewertung:
• Berechnung über Z-score Normierung:

ˆ
rui  r u   u

w

vN i ( u )

uv

(rvi  rv ) /  v

w

vN i ( u )

uv

wobei  u die Standartabweichung ist.

Ansätze für gemeinschaftliches Filtering

31
6. Memory Based (Speicherbasierende) Algorithmen:
b) Item-Based Collaborated Filtering

Grundlagen:
1.

Die Ähnlichkeiten der Benutzer berechnen und in eine
(Item X Item) – Matrix eintragen

2.

Auswahl der k ähnlichsten Nachbarn (Mentoren)

3.

Berechnung der Fehlenden Bewertungen auf Basis der Ähnlichkeiten

Ansätze für gemeinschaftliches Filtering

32
6. Memory Based (Speicherbasierende) Algorithmen:
b) Item-Based Collaborated Filtering

Proximitätsberechnung:
Berechnung mittels korrelationsbasierende Ähnlichkeit:

 (r

PC (i, j ) 

uU ij

ui

 ri )(ruj  rj )

(rui  ri ) 2  (ruj  rj ) 2


uU ij

uU ij

U ij beschreibt die Benutzer der beide Items bewertet haben

Ansätze für gemeinschaftliches Filtering

33
6. Memory Based (Speicherbasierende) Algorithmen:
b) Item-Based Collaborated Filtering

Berechnung der wahrscheinlichen Bewertung:
• Berechnung über Z-score Normierung:

ˆ
rui  r i   i

w

jN u ( i )

ij

(ruj  rj ) /  j

w

jN u ( i )

ij

wobei  i die Standartabweichung ist.

Ansätze für gemeinschaftliches Filtering

34
6. Memory Based (Speicherbasierende) Algorithmen:
c) Vergleich

•

Genauigkeit:

– Wenigere vertrauenswürdigere Mentoren sind besser
–
–

•

Viel weniger Items als Benutzer in der Matrix vorhanden
 Item-Based besser
Viel weniger Benutzer als Items in der Matrix vorhanden
 User-Based besser

Effizienz:
– Weniger Items als Benutzer in der Matrix vorhanden
 Item-Based besser
– Weniger Benutzer als Items in der Matrix vorhanden
 User-Based besser
Ansätze für gemeinschaftliches Filtering

35
6. Memory Based (Speicherbasierende) Algorithmen:
c) Vergleich

•

Stabilität:
– Bei gleichbleibender Item-Angebot
 Item-Based besser
– Bei gleichbleibender User-Pool
 User-Based besser

•

Neue Empfehlungen:
User-Based ergibt hin und wieder Vorschläge aus anderen
Bereichen

Ansätze für gemeinschaftliches Filtering

36
7. Vor- und Nachteile

Ansätze für gemeinschaftliches Filtering

37
7. Vor- und Nachteile

Vorteile

Nachteile

• Ermitteln von
Objekteigenschaften
entfallen
• Austausch von Erfahrungen
vieler Benutzer
• Beziehungen von Benutzern
werden aufgedeckt
• Empfehlungen auch wenn
nicht danach gesucht wird

•
•
•
•
•

Cold-Start-Problem
Black-Box-Problem
Synonym-Problem
Shilling attacks
Zufällige zusammenhänge
Falsche Empfehlungen

• Objekteigenschaften nicht
miteinbezogen
• geringer Datenschutz

Ansätze für gemeinschaftliches Filtering

38
8. Einsatzgebiete

Ansätze für gemeinschaftliches Filtering

39
8. Einsatzgebiete

• große Benutzer- und Objektanzahl
• keine Einordnung der Items in objektive Eigenschaften
möglich bzw. subjektive Bewertungen besser
Literatur, Musik, Videos, Filme, Websieten, Restaurants
Amazone, Ebay, etc

Ansätze für gemeinschaftliches Filtering

40
Danke für ihre Aufmerksamkeit

Ansätze für gemeinschaftliches Filtering

41

Contenu connexe

En vedette

Guía de trabajo Tema4
Guía de trabajo Tema4Guía de trabajo Tema4
Guía de trabajo Tema4Edgar Linares
 
La Plaquette
La PlaquetteLa Plaquette
La PlaquetteEva Schz
 
Trust-based recommender systems
Trust-based recommender systemsTrust-based recommender systems
Trust-based recommender systemsFlorian Stegmaier
 
Kompass zur Berufswahl
Kompass zur BerufswahlKompass zur Berufswahl
Kompass zur Berufswahlguestec0eea
 
F Tronik Kurzversion
F Tronik KurzversionF Tronik Kurzversion
F Tronik KurzversionFTronik
 
Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)costsolution
 
OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015
OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015
OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015contactOpinionWay
 
Smau Milano 2014 Unicom
Smau Milano 2014 UnicomSmau Milano 2014 Unicom
Smau Milano 2014 UnicomSMAU
 
Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014
Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014
Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014contactOpinionWay
 
La nationalité de voitures carlos lisa
La nationalité de voitures carlos lisaLa nationalité de voitures carlos lisa
La nationalité de voitures carlos lisaineserra
 
Balada suiza
Balada suizaBalada suiza
Balada suizamonsanman
 

En vedette (17)

Guía de trabajo Tema4
Guía de trabajo Tema4Guía de trabajo Tema4
Guía de trabajo Tema4
 
La Plaquette
La PlaquetteLa Plaquette
La Plaquette
 
Trust-based recommender systems
Trust-based recommender systemsTrust-based recommender systems
Trust-based recommender systems
 
Kompass zur Berufswahl
Kompass zur BerufswahlKompass zur Berufswahl
Kompass zur Berufswahl
 
Rapport d'activité 2013
Rapport d'activité 2013Rapport d'activité 2013
Rapport d'activité 2013
 
Sida Solidarité Magazine N°4
Sida Solidarité Magazine N°4Sida Solidarité Magazine N°4
Sida Solidarité Magazine N°4
 
F Tronik Kurzversion
F Tronik KurzversionF Tronik Kurzversion
F Tronik Kurzversion
 
Imagenes test
Imagenes testImagenes test
Imagenes test
 
Performances 2012 des medias au cameroun
Performances 2012 des medias au camerounPerformances 2012 des medias au cameroun
Performances 2012 des medias au cameroun
 
Crash vintage
Crash vintageCrash vintage
Crash vintage
 
Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)Herzlich Willkommen! (FöV)
Herzlich Willkommen! (FöV)
 
C’est lettonie...2!!!
C’est lettonie...2!!!C’est lettonie...2!!!
C’est lettonie...2!!!
 
OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015
OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015
OpinionWay pour MMA Makheia - La santé du dirigeant d’entreprise / Juillet 2015
 
Smau Milano 2014 Unicom
Smau Milano 2014 UnicomSmau Milano 2014 Unicom
Smau Milano 2014 Unicom
 
Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014
Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014
Opinionway pour Clai - Metronews - LCI / Questions d’actualité / Octobre 2014
 
La nationalité de voitures carlos lisa
La nationalité de voitures carlos lisaLa nationalité de voitures carlos lisa
La nationalité de voitures carlos lisa
 
Balada suiza
Balada suizaBalada suiza
Balada suiza
 

Similaire à Ansätze für gemeinschaftliches Filtering

Evaluierung von Empfehlungssystemen
Evaluierung von EmpfehlungssystemenEvaluierung von Empfehlungssystemen
Evaluierung von EmpfehlungssystemenFlorian Stegmaier
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Dirk Lewandowski
 
Information Retrieval und Recommender Systems
Information Retrieval und Recommender SystemsInformation Retrieval und Recommender Systems
Information Retrieval und Recommender Systemspgbigi
 
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...Dirk Lewandowski
 
Usability Methoden
Usability  MethodenUsability  Methoden
Usability MethodenNina Rebele
 
German UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenGerman UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenUSECON
 
Fortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFlorian Stegmaier
 
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Dirk Lewandowski
 
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...Dirk Lewandowski
 
Suchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW HamburgSuchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW HamburgDirk Lewandowski
 
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, TrendsWeb-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, TrendsDirk Lewandowski
 
Wegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-DschungelWegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-DschungelForschungsWeb GmbH
 
Wissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von SuchmaschinenWissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von SuchmaschinenDirk Lewandowski
 

Similaire à Ansätze für gemeinschaftliches Filtering (13)

Evaluierung von Empfehlungssystemen
Evaluierung von EmpfehlungssystemenEvaluierung von Empfehlungssystemen
Evaluierung von Empfehlungssystemen
 
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
Wie können wir (Suchmaschinen-)Nutzer besser verstehen?
 
Information Retrieval und Recommender Systems
Information Retrieval und Recommender SystemsInformation Retrieval und Recommender Systems
Information Retrieval und Recommender Systems
 
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
User Experience vs. Retrievaltests - Wie lässt sich die Relevanz von Sucherge...
 
Usability Methoden
Usability  MethodenUsability  Methoden
Usability Methoden
 
German UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD BaukastenGerman UPA Konferenz - Der IxD Baukasten
German UPA Konferenz - Der IxD Baukasten
 
Fortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative FilteringFortschritte im Bereich Collaborative Filtering
Fortschritte im Bereich Collaborative Filtering
 
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?Ist meine Suchmaschine wirklich so gut, wie ich glaube?
Ist meine Suchmaschine wirklich so gut, wie ich glaube?
 
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...
Vergleichende Betrachtung der Funktionalität und Leistungsfähigkeit von Inter...
 
Suchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW HamburgSuchmaschinenforschung an der HAW Hamburg
Suchmaschinenforschung an der HAW Hamburg
 
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, TrendsWeb-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
Web-Suchmaschinen: Suchverhalten, Informationsqualität, Trends
 
Wegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-DschungelWegweiser durch den Social Media Monitoring-Dschungel
Wegweiser durch den Social Media Monitoring-Dschungel
 
Wissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von SuchmaschinenWissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
Wissensarmut trotz (oder gar durch) Nutzung von Suchmaschinen
 

Plus de Florian Stegmaier

Realtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsRealtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsFlorian Stegmaier
 
Effiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenEffiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenFlorian Stegmaier
 
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeTrust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeFlorian Stegmaier
 
Robustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenRobustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenFlorian Stegmaier
 
Linked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeLinked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeFlorian Stegmaier
 
Entscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemEntscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemFlorian Stegmaier
 
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem FilternFunktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem FilternFlorian Stegmaier
 
Context Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeContext Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeFlorian Stegmaier
 
Effiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenEffiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenFlorian Stegmaier
 
Introduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCIntroduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCFlorian Stegmaier
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Florian Stegmaier
 
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...Florian Stegmaier
 

Plus de Florian Stegmaier (13)

Realtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of DatastreamsRealtime
 Distributed Analysis
 of Datastreams
Realtime
 Distributed Analysis
 of Datastreams
 
Effiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen DatenmengenEffiziente Verarbeitung von großen Datenmengen
Effiziente Verarbeitung von großen Datenmengen
 
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für EmpfehlungssystemeTrust und Interest Similarity und deren Anwendung für Empfehlungssysteme
Trust und Interest Similarity und deren Anwendung für Empfehlungssysteme
 
Musikempfehlungssysteme
MusikempfehlungssystemeMusikempfehlungssysteme
Musikempfehlungssysteme
 
Robustheit in Empfehlungssystemen
Robustheit in EmpfehlungssystemenRobustheit in Empfehlungssystemen
Robustheit in Empfehlungssystemen
 
Linked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für EmpfehlungssystemeLinked Open Data als Basis für Empfehlungssysteme
Linked Open Data als Basis für Empfehlungssysteme
 
Entscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender SystemEntscheidungshilfe: Recommender System
Entscheidungshilfe: Recommender System
 
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem FilternFunktionsweise und Ansätze von inhaltsbasiertem Filtern
Funktionsweise und Ansätze von inhaltsbasiertem Filtern
 
Context Basierte Personalisierungsansätze
Context Basierte PersonalisierungsansätzeContext Basierte Personalisierungsansätze
Context Basierte Personalisierungsansätze
 
Effiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen DatenmengenEffiziente Verarbeitung von grossen Datenmengen
Effiziente Verarbeitung von grossen Datenmengen
 
Introduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBCIntroduction to the FP7 CODE project @ BDBC
Introduction to the FP7 CODE project @ BDBC
 
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
Generische Datenintegration zur semantischen Diagnoseunterstützung im Projekt...
 
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
AIR: Architecture for Interoperable Retrieval on Distributed and Heterogeneou...
 

Ansätze für gemeinschaftliches Filtering

  • 1. Ansätze für gemeinschaftliches Filtering Matthias Attenbrunner 06.Dezember 2013 Seminar zur Personalisierung großer Daten
  • 2. Übersicht: 1. 2. 3. 4. 5. 6. Problemdarstellung Definition von gemeinschaftlichen Filtering Arten des gemeinschaftlichen Filtering Grundlagen des gemeinschaftlichen Filtering Model Based (Modellbasierende) Algorithmen Memory Based (Speicherbasierende) Algorithmen a) User-Based Collaborated Filtering b) Item-Based Collaborated Filtering c) Vergleich 7. Vor- und Nachteile 8. Einsatzgebiete Ansätze für gemeinschaftliches Filtering 2
  • 3. 1. Problemdarstellung Ansätze für gemeinschaftliches Filtering 3
  • 4. 1. Problemdarstellung: • Große Informationsflut seit Anfang der 90er  Verlust der Übersicht des Einzelnen über die Informationen, die er benötigt oder nützlich sind  Unternehmen müssen neue Wege finden die Informationen neu zu bewerten und zu nutzen Ansätze für gemeinschaftliches Filtering 4
  • 5. 1. Problemdarstellung: • Unterschiede des Internets zu andere Massenmedien  One-To-Many-Kommunikation: Fernsehen, Radio, etc  Many-To-Many-Kommunikation: Internet Ansätze für gemeinschaftliches Filtering 5
  • 6. 2. Definition von gemeinschaftlichen Filtering Ansätze für gemeinschaftliches Filtering 6
  • 7. 2. Definition von gemeinschaftlichen Filtering: Ansätze für gemeinschaftliches Filtering 7
  • 8. 3. Arten des gemeinschaftlichen Filtering Ansätze für gemeinschaftliches Filtering 8
  • 9. 3. Arten des gemeinschaftlichen Filtering: Ansätze für gemeinschaftliches Filtering 9
  • 10. 4. Grundlagen des gemeinschaftlichen Filtering Ansätze für gemeinschaftliches Filtering 10
  • 11. 4. Grundlagen des gemeinschaftlichen Filtering: Grundidee: Hat man eine große Anzahl an Benutzern und ihre Bewertungen bzw Gewohnheiten, kann man diese vergleichen, Ähnliche finden und daraus Lücken in den Bewertungen dieser Benutzer schließen. Ansätze für gemeinschaftliches Filtering 11
  • 12. 4. Grundlagen des gemeinschaftlichen Filtering: Ansätze für gemeinschaftliches Filtering 12
  • 13. 4. Grundlagen des gemeinschaftlichen Filtering: • Erhebung von Benutzerdaten: – Logindaten (z.B.: Seitenaufrufe, Logindauer, …) – Suchanfragen – Kommentare – Befragungen – Bewertungen • • • • nominale Daten (z.B.: Augenfarbe, Gut/Schlecht, 1/0, …) ordinale Daten (z.B.: {schlechter, schlecht, neutral, gut, besser}) interval (z.B.: Kalenderdaten, Temperatur in Grad/Fahrenheit, …) Ratio (z.B: Alter, Längenangaben, …) – sekundäre Erhebung (z.B.: Ankauf von existierenden Matrizen) Ansätze für gemeinschaftliches Filtering 13
  • 14. 4. Grundlagen des gemeinschaftlichen Filtering: • Proximitätsberechnung: Berechnung der Ähnlichkeit zwischen dem aktiven Benutzer bzw. dessen bewertete Items mit denen in der Datenbank gespeicherten. Ansätze für gemeinschaftliches Filtering 14
  • 15. 4. Grundlagen des gemeinschaftlichen Filtering: • Auswahl der Mentoren: 1. Ähnlichkeit muss berechnet worden sein 2. Die Mentoren müssen sich um mindestens einmal unterscheiden 3. Die Mentoren können eine Mindestähnlichkeit besitzen 4. Die Mentoren können nur eine positive Mindestähnlichkeit besitzen Ansätze für gemeinschaftliches Filtering 15
  • 16. 4. Grundlagen des gemeinschaftlichen Filtering: • Prognose: Berechnung von Prognosen auf der Bewertungen der zuvor ausgewählten Mentoren. Ansätze für gemeinschaftliches Filtering 16
  • 17. 5. Model Based (Modellbasierende) Algorithmen Ansätze für gemeinschaftliches Filtering 17
  • 18. 5. Model Based (Modellbasierende) Algorithmen: • Grundidee: 1. Auswahl sog. Trainingssets (eine aus der Datenmatrix ausgewählte Teilmatrix) 2. Offlineberechnung der Parameter eines Modells 3. Berechnung der Prognose auf Basis der Parameter Ansätze für gemeinschaftliches Filtering 18
  • 19. 5. Model Based (Modellbasierende) Algorithmen: • Vorteile: Prognose, die online berechnet wird, ist viel schneller • Nachteile: Bei der Modellbildung kann ein Informationsverlust entstehen Ansätze für gemeinschaftliches Filtering 19
  • 20. 5. Model Based (Modellbasierende) Algorithmen: • Arten: – Clustermodelle – Bayessche Netzwerke – Regelbasierende (rule-based) Annäherung – Neuronale Netzwerke – …. Ansätze für gemeinschaftliches Filtering 20
  • 21. 6. Memory Based (Speicherbasierende) Algorithmen Ansätze für gemeinschaftliches Filtering 21
  • 22. 6. Memory Based (Speicherbasierende) Algorithmen: Definition: – Liste von m Benutzer : – Liste von n items (Artikel/Objekte): – Liste von items von Benutzer ui : – Liste von Benutzer von item ii : – Aktiver Benutzer: – Rating von Benutzer u und item i : Ansätze für gemeinschaftliches Filtering U = {u1, u2, … , um} I = {i1, i2, … , in} Iui Uii ua rui 22
  • 23. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Grundlagen: 1. Die Ähnlichkeiten der Benutzer berechnen und in eine (Benutzer X Benutzer) – Matrix eintragen 2. Auswahl der k ähnlichsten Nachbarn (Mentoren) 3. Berechnung der Fehlenden Bewertungen auf Basis der k Mentoren Ansätze für gemeinschaftliches Filtering 23
  • 24. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Proximitätsberechnung: • Betrachtung der Informationen als Vektoren • Berechnung der Ähnlichkeit über die Cosinus-VektorÄhnlichkeit xa  xb cos( xa , xb )  xa xb Ansätze für gemeinschaftliches Filtering 24
  • 25. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Proximitätsberechnung: • Übertragen auf das Bewertungssystem indem ein Benutzer u als xu betrachtet wird • xui = rui falls eine Bewertung bei i vor liegt und anders 0 Formel für Benutzer u und v: CV (u, v)  cos( xu , xv )  r r iI uv ui vi 2 2 rui  rvj  iI u jI v Iuv beschreibt die Items die beide Benutzer bewertet haben Ansätze für gemeinschaftliches Filtering 25
  • 26. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Proximitätsberechnung:  Rausfilten der Mittleren Differenz und der Unterschiedlichen Bewertungsarten der Benutzer u und v  Verwendung der Pearson Korrelation PC (u, v)   (r iI uv  (r iI uv ui ui  ru )(rvi  rv )  ru ) 2  (r iI uv Ansätze für gemeinschaftliches Filtering vi  rv ) 2 26
  • 27. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Berechnung der wahrscheinlichen Bewertung: • Berechnung über das arithmetisches Mittel: ˆ rui r   f (r vU vU vi vi ) wobei rvi = 0 falls nicht bewertet und f :   {0,1} : { 0, falls keine Bewertung vorliegt 1, falls eine Bewertung vorliegt Ansätze für gemeinschaftliches Filtering 27
  • 28. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Berechnung der wahrscheinlichen Bewertung: • Berechnung über die Summation der Top-N-Bewertungen: 1 ˆ rui  N i (u ) r vi vN i ( u ) wobei N(u) die k-nähesten-Nachbarn von u sind und Ni(u) die das Item i bewertet haben.  Problem: Alle Mentoren zählen gleich viel Ansätze für gemeinschaftliches Filtering 28
  • 29. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Berechnung der wahrscheinlichen Bewertung: • Berechnung über die gewichtete Summation der Top-NBewertungen : ˆ rui  w vN i ( u ) r uv vi w vN i ( u ) uv wobei wuv die Ähnlichkeit der Benutzer angibt.  Problem: Benutzer verwenden verschiedene Bewertungen Ansätze für gemeinschaftliches Filtering 29
  • 30. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Berechnung der wahrscheinlichen Bewertung: • Berechnung über den Ansatz von Resnick und Breese (Mittlere Zentrierung): w ru ˆ rui  r u  vN i ( u ) uv (rvi  rv ) w vN i ( u ) uv wobei r udas arithmetische Mittel.  Problem: Erfasst nicht wie weit die Bewertungen variieren Ansätze für gemeinschaftliches Filtering 30
  • 31. 6. Memory Based (Speicherbasierende) Algorithmen: a) User-Based Collaborated Filtering Berechnung der wahrscheinlichen Bewertung: • Berechnung über Z-score Normierung: ˆ rui  r u   u w vN i ( u ) uv (rvi  rv ) /  v w vN i ( u ) uv wobei  u die Standartabweichung ist. Ansätze für gemeinschaftliches Filtering 31
  • 32. 6. Memory Based (Speicherbasierende) Algorithmen: b) Item-Based Collaborated Filtering Grundlagen: 1. Die Ähnlichkeiten der Benutzer berechnen und in eine (Item X Item) – Matrix eintragen 2. Auswahl der k ähnlichsten Nachbarn (Mentoren) 3. Berechnung der Fehlenden Bewertungen auf Basis der Ähnlichkeiten Ansätze für gemeinschaftliches Filtering 32
  • 33. 6. Memory Based (Speicherbasierende) Algorithmen: b) Item-Based Collaborated Filtering Proximitätsberechnung: Berechnung mittels korrelationsbasierende Ähnlichkeit:  (r PC (i, j )  uU ij ui  ri )(ruj  rj ) (rui  ri ) 2  (ruj  rj ) 2  uU ij uU ij U ij beschreibt die Benutzer der beide Items bewertet haben Ansätze für gemeinschaftliches Filtering 33
  • 34. 6. Memory Based (Speicherbasierende) Algorithmen: b) Item-Based Collaborated Filtering Berechnung der wahrscheinlichen Bewertung: • Berechnung über Z-score Normierung: ˆ rui  r i   i w jN u ( i ) ij (ruj  rj ) /  j w jN u ( i ) ij wobei  i die Standartabweichung ist. Ansätze für gemeinschaftliches Filtering 34
  • 35. 6. Memory Based (Speicherbasierende) Algorithmen: c) Vergleich • Genauigkeit: – Wenigere vertrauenswürdigere Mentoren sind besser – – • Viel weniger Items als Benutzer in der Matrix vorhanden  Item-Based besser Viel weniger Benutzer als Items in der Matrix vorhanden  User-Based besser Effizienz: – Weniger Items als Benutzer in der Matrix vorhanden  Item-Based besser – Weniger Benutzer als Items in der Matrix vorhanden  User-Based besser Ansätze für gemeinschaftliches Filtering 35
  • 36. 6. Memory Based (Speicherbasierende) Algorithmen: c) Vergleich • Stabilität: – Bei gleichbleibender Item-Angebot  Item-Based besser – Bei gleichbleibender User-Pool  User-Based besser • Neue Empfehlungen: User-Based ergibt hin und wieder Vorschläge aus anderen Bereichen Ansätze für gemeinschaftliches Filtering 36
  • 37. 7. Vor- und Nachteile Ansätze für gemeinschaftliches Filtering 37
  • 38. 7. Vor- und Nachteile Vorteile Nachteile • Ermitteln von Objekteigenschaften entfallen • Austausch von Erfahrungen vieler Benutzer • Beziehungen von Benutzern werden aufgedeckt • Empfehlungen auch wenn nicht danach gesucht wird • • • • • Cold-Start-Problem Black-Box-Problem Synonym-Problem Shilling attacks Zufällige zusammenhänge Falsche Empfehlungen • Objekteigenschaften nicht miteinbezogen • geringer Datenschutz Ansätze für gemeinschaftliches Filtering 38
  • 39. 8. Einsatzgebiete Ansätze für gemeinschaftliches Filtering 39
  • 40. 8. Einsatzgebiete • große Benutzer- und Objektanzahl • keine Einordnung der Items in objektive Eigenschaften möglich bzw. subjektive Bewertungen besser Literatur, Musik, Videos, Filme, Websieten, Restaurants Amazone, Ebay, etc Ansätze für gemeinschaftliches Filtering 40
  • 41. Danke für ihre Aufmerksamkeit Ansätze für gemeinschaftliches Filtering 41