SlideShare une entreprise Scribd logo
1  sur  43
Télécharger pour lire hors ligne
BIG DATA
– der Daten-Tsunami
Potenziale und Herausforderungen des Web
Mining am Bsp. eines Online-Shopping-Portals
Lynx Akademie
Dr. Christian Holsing, August 2013
Agenda
2
1. Entstehung, Relevanz und Definition
2. Anwendungsszenarien
3. Kritik
4. KDD-Prozess und Data Mining
5. Anwendung: Web Mining im E-Commerce
3
Portfolio E-Commerce@Lynx
CONSULTING TECHNOLOGY MARKETING
 Strategie-/ Managementberatung:
 Online-Geschäftsmodelle
 Multichannel-Retailing
 Social Commerce
 Konzeption und Design Online-Shop
und Features
 Research + Consumer Insights
(Erhebung von Primär- und
Sekundärdaten)
 Projektmanagement
 Interim Management
 Partnermanagement (Full Service)
 SMART UP:
 Coaching von Start-ups
 Business Development
 Gründercoaching KfW
 SAP E-Commerce und Web Channel
Experience Management
 Open Source Shop-Systeme:
• Apache OFBiz/
Lynx eCommerce Suite
• Magento
 Content-Management-Systeme
 Product Information Management
(PIM)
 Portallösungen
 Integration ERP
 Online-Marketing
 Strategie
 Implementierung (SEM,
SEO, Display, Affiliate,
Social Media, etc.)
 Shop-Check (Technik, Usability,
CRO)
 Web Intelligence:
 Web Analytics (Software,
Testing und Reporting)
 CRM E-Commerce (CRM,
Data Mining, Predictive
Analytics)
Ganzheitliche Beratung aus einer Hand!
www.lynx-ecommerce.de
4
Exzellent vernetzt!
Mitgliedschaften und Kooperationen
K5 Liga
Die K5 Liga ist von Exciting Commerce initiiert und vereint
Anbieter von Dienstleistungen und Agenturen, die den
Online-Handel in strategischen Wachstumsphasen unterstützen.
ECC-Club
Der ECC-Club ist vom E-Commerce-Center Köln (ECC) mit dem
Ziel initiiert, den Wissenstransfer zwischen betrieblicher Praxis
und Wissenschaft zu fördern und von den gewonnenen
Erkenntnissen zu profitieren.
Deutscher Marketing-Verband
Vertretung von mehr als 14.000 Führungskräften und
marketing-orientierten Unternehmen.
Lehrstuhl für BWL, insb. Marketing, Universität Hagen
Gemeinsames Forschungsprojekt ‚Affiliate Marketing‘
5
DER
ONLINE-TSUNAMI
ENTSTEHUNG, RELEVANZ
UND DEFINITION
BIG DATA: in aller Munde
6
 2011: McKinsey-Studie
 2011: Gartner-Hype-Cycle (2 Jahre Mainstream Adoption)
 2013: Berichte und Titel
 Süddeutsche Zeitung
 Die Zeit
 FAZ
 Spiegel (13. Mai)
Zusätzlich zu Transaktionsdaten fallen nun an:
7
Quelle: Bitkom 2012, S. 11
Weltweite Menge an Daten wächst rasant
8
Prognose von IDC:
 2012: 2,8 Zettabyte Datenvolumen
 2020: 40 Zettabyte Datenvolumen
Quellen: Bitkom 2012, S. 12 (Abb.); IDC 2012
BIG DATA: Definition
9
Quelle: Bitkom 2012
 Der Begriff Big Data wurde geprägt, um
 die wirtschaftlich sinnvolle Gewinnung und Nutzung
entscheidungsrelevanter Erkenntnisse
 aus qualitativ vielfältigen, unterschiedlich strukturierten
Informationen zu bezeichnen,
 die zudem einem schnellen Wandel unterliegen und in
bisher ungekanntem Umfang anfallen.
 Big Data umfasst Konzepte, Methoden, Technologien, IT-
Architekturen sowie Tools, mit denen sich die Informationsflut
in Bahnen lenken lässt.
10
DER
ONLINE-TSUNAMI
ANWENDUNGS-
SZENARIEN
BIG DATA: Herausforderungen (3 V‘s)
11
Volume
VarietyVelocity
BIG DATA
Quelle: Bitkom 2012
Der Markt für IT und Beratung wächst mit!
12
 Umsatz mit Big Data-Anwendungen steigt (Bitkom 2012)
 2012: 4,6 Mrd. Euro
 2016: 16,0 Mrd. Euro
 4,4 Mio. neue Jobs im IT-Bereich durch Big Data
(Gartner 2012)
BIG DATA: Anwendungen
13
 Kreditkarten-Missbrauch vorhersagen
 Algorithmen zum Verkehrsmanagement
 Bonitätsprüfung
 Individuelle Medizin
 Supermarkt: Kundenkarten, Absatzprognosen,
Warenkorbanalysen
 Online-Geschäftsmodelle: oft Big Data in Reinkultur
 Sammeln, Analysieren und Vermarkten von
Informationen  zielgenaue Werbung
 Google
 facebook
Hände hoch!
14
 Nutzer einer Kundenkarte?
 Meilen-Sammler?
 Klick auf Online-Banner?
 Profil in Sozialen Medien?
Mindestens einmal mit Ja geantwortet?
Glückwunsch, auch DU bist BIG DATA-Lieferant!
Immer mit Nein geantwortet?
Trotzdem Glückwunsch!
15
DER
ONLINE-TSUNAMIKRITIK
Kritik
16
 Datenerhebung und -auswertung erfolgt oft nach technischen
Aspekten
 Kritik der Sozialforscherin Danah Boyd:
 Größere Datenmengen sind nicht qualitativ besser (rep.
Stichprobe)
 "Was" und "Warum" seien zwei unterschiedliche Fragen
 Bei Interpretationen sei Vorsicht geboten
 Nur weil es verfügbar ist, sei es nicht ethisch
 Bedeutet Big Data das Ende aller Theorie?
 Chris Anderson, Chefredakteur WIRED:
Glaubwürdigkeitsproblem jeder wissenschaftlichen
Hypothese und jedes Modells bei gleichzeitiger
Echtzeitanalyse von Systemen. Korrelationen werden
wichtiger als kausale Erklärungsansätze.
17
DER
ONLINE-TSUNAMI
KDD UND
DATA MINING
Knowledge Discovery in Databases-Prozess
18
Selektion
Vor-
verarbeitung
Trans-
formation
Data Mining
Interpretation/
Evaluation
Daten Wissen
Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39:
„Knowledge discovery in databases is the non-trivial process
of identifying valid, novel, potentially useful, and ultimately
understandable patterns in data.“
Quelle: Eigene Abb. in Anl. an FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39
Data Mining
19
Data Mining = Datenmustererkennung
Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39:
„Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion
von Mustern aus Daten.“
 Daten werden als neues ‚Öl‘ oder ‚Gold‘ bezeichnet
 Parallele zum Goldrausch im 19. Jh.:
 Diejenigen, die Ausrüstung, Werkzeug und Expertise
verkaufen, machen sehr gute Geschäfte
 Google: In Stanford entwickelter Algorithmus von
BRIN AND PAGE 1998:
The Anatomy of a Large-Scale Hypertextual Web Search Engine
Web Mining
20
Web Mining
Web Content
Mining
Web Structure
Mining
Web Usage
Mining
 Web Content Mining: Extraktion von Wissen (oft auch Text Mining)
 Web Structure Mining: Analyse von Seitenstrukturen (Google PageRank)
 Web Usage Mining: „data mining activities with the goal to analyse and
predict the behaviour of websites’ users“(GROSSMANN/HUDEC/KURZAWA)
Quelle: eigene Abb. in Anl. an ZAÏANE 1999
Informationsgewinnung im Internet
21
 Logfiles:
 indirekte Beobachtung
 die beobachtete Person ist sich der Beobachtung nicht
bewusst ( kein Beobachtungseffekt)
Methoden der
Informationsgewinnung
im Internet
Primärforschung
Online-
Befragung
Online-
Beobachtung
Online-
Experiment
Online-Panel
Sekundärforschung
Online-
Datenbanken
Quelle: Eigene Abb. in Anl. an FRITZ 2004
Entscheidungsbaum im Web Usage Mining
Bsp.: Kauf im Online-Shop
22
NeinJa
< 3 Minuten> 3 Minuten
NeinJa
Knoten 0
3% Kauf
97% Nicht-Kauf
Knoten 1
6% Kauf
94% Nicht-Kauf
Knoten 3
9% Kauf
91% Nicht-Kauf
Knoten 5
11% Kauf
89% Nicht-Kauf
Knoten 6
8% Kauf
92% Nicht-Kauf
Knoten 4
5% Kauf
95% Nicht-Kauf
Knoten 2
2% Kauf
98% Nicht-Kauf
Sonderangebote
Verweildauer
Wochentag
Ziel: Datenobjekte
aufgrund der Ausprägungen
von unabhängigen
Variablen sukzessive in
möglichst homogene
Teilmengen mit jeweils
ähnlichen Werten der
Zielgröße aufteilen
 Generierung
Klassifikationsregeln
Wurzel-
knoten
Quelle: HOLSING 2012
23
DER
ONLINE-TSUNAMI
ANWENDUNG
WEB MINING
Leitfrage der exemplarischen Untersuchung
 Welche Faktoren, insbesondere welche Social-
Shopping-Funktionen, beeinflussen vorökono-
mische und ökonomische Zielgrößen in Social-
Shopping-Communities?
24
Stimuli Reaktion
(unabhängige Variablen) (abhängige Variable)
Funktionen
Charakteristika
des Käufers
Kaufentscheidungs-
prozess
Untersuchte Zielgrößen
des Kaufverhaltens
z. B.: kulturelle Problemerkennung Click-Out (Konversion)
Startseite soziale Informationssuche Verweildauer
Suchfilter persönliche Informationsbewertung
Ratings psychologische Entscheidung
Social Shopping-Funktionen Nachkaufverhalten
beobachtbar beobachtbar
Black Box (Organismus) des Käufers
nicht beobachtbar
Quelle: Holsing 2012
Untersuchungsobjekt
25
 Logfiles einer führenden Social Shopping
Community im deutschsprachigen Raum
 Kategorien: Mode, Möbel und Lifestyle
 Zielgruppe: Frauen
 Ca. 1,5 Mio. Produkte gelistet
 Ca. 600 teilnehmende Online-Shops
S-O-R-Modell des Kaufverhaltens
(KOTLER/ARMSTRONG/WONG/SAUNDERS 2011)
26
Reaktion
Marketingstimuli Umfeldstimuli Person
Kaufentscheidungs-
prozess
Kaufentscheidungen
Produkt konjunkturelle kulturelle Problemerkennung Wahl eines Produkts
Preis technologische soziale Informationssuche Wahl einer Marke
Distribution politische persönliche Informationsbewertung Wahl eines Händlers
Kommunikation kulturelle psychologische Entscheidung Kaufzeitpunkt
Nachkaufverhalten Kaufmenge
beobachtbar
Exogene Stimuli Black Box (Organismus) des Käufers
beobachtbar nicht beobachtbar
Logfile-Analyse: Daten und Prozess
27
 Tägliche Datenübermittlung an Server
 Zeitraum: 6 Monate
 Tracking für jeden Besuch: aufgerufene Seiten,
Dauer, etc.
 Limitationen:
 Keine Wiederholungsbesuche
 Kein Tracking in partizipierenden Online-Shops
2009-05-21 00:43:59,689|CLICK_OUT|0A7916144EAF0AC292515EB34A0D
9F0C|Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET
CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30;
InfoPath.1)|77.188.xx.xx|NOBOT|zX+itsFeZEG2ss4f|NOT-LOGGED-
IN|||/search.searchresultcontainer.clickoutbutton.clickoutform/
2331697/4681401|2331697|Mode/Bekleidung/Kleider
Logfile-Analyse: Orientierung am KDD-Prozess
28
 Software: SAS Enterprise Miner 6.2
 Pre-processing:
 Sessions: 7,8 Mio.  2,9 Mio.
 Ziel: Charakterisierung Sessions
 4 VariablenkategorienDaten-
aufbereitung
Logfiles
Mustererkennung:
-Deskriptiv
-Segmentierung
(Prognose-)
Modellierung
Beurteilung und
Interpretation
Deskriptive Statistiken
29
Variablenkategorie Variable Mittelwert SD Minimum Maximum Median
Generell
LOG_IN 0,01 0,11 0,00 1,00 0,00
KAMPAGNE 0,68 0,47 0,00 1,00 1,00
WOCHENENDE 0,29 0,45 0,00 1,00 0,00
DAUER 201,13 324,09 2,00 2.699,00 72,00
DAUER_KLICK 34,16 58,34 1,00 1.302,00 17,00
PRODUKT 0,91 2,03 0,00 664,00 0,00
PRODUKT_DAUER 17,28 60,18 0,00 2.261,00 0,00
START 0,09 0,45 0,00 130,00 0,00
Suchfunktionen
SUCHFELD 1,15 2,55 0,00 520,00 0,00
SUCHE_GESCHLECHT 0,73 4,02 0,00 430,00 0,00
SUCHE_KATEGORIE 1,48 6,67 0,00 557,00 0,00
SUCHE_MARKE 0,31 2,49 0,00 369,00 0,00
SUCHE_PREIS 0,12 1,69 0,00 220,00 0,00
SUCHE_SALES 0,05 0,96 0,00 234,00 0,00
SUCHE_SHOP 0,12 0,91 0,00 178,00 0,00
Social Shopping
RATING_PROD 13,81 32,36 0,00 100,00 0,00
RATING_SHOP 13,66 32,26 0,00 100,00 0,00
LISTE 0,02 0,23 0,00 112,00 0,00
STYLE 0,01 0,16 0,00 95,00 0,00
TAG 0,03 0,57 0,00 183,00 0,00
PROFIL 0,01 0,23 0,00 121,00 0,00
Transaktion CLICK_OUT 0,41 0,49 0,00 1,00 0,00
Logfile-Analyse: Deskriptive Statistiken
30
 Großteil der Besuche: Wochentag (71,12%)
 Sonntags (16,45%) und montags (16,13%) am höchsten
 Verlauf: Sinken der Besucherzahlen von So. bis Sa.
Logfile-Analyse: Deskriptive Statistiken II
31
Variable HOUR
 Anstieg von morgens bis zur
Spitze um ca. 21:00 Uhr
 Besuche steigen im
Tagesverlauf von morgens bis
zur Spitze am Abend an, wobei
zwischen 21:00 Uhr und 22:00
Uhr die meisten Besuche
stattfinden (8,42 Prozent)
 Mithilfe dieser Auswertungen
könnte z. B. ein Zeitpunkt
festgelegt werden, an dem
bestimmte Neuigkeiten online
gestellt werden, z. B. zur
Hauptnutzungszeit
Logfile-Analyse: Angewandte Methoden
32
 Angewandte Methoden:
 Logistische Regression
 Entscheidungsbaum
 Multi Layer Perceptron (Form eines Künstlichen
Neuronalen Netzes)
 Fokus auf logistischer Regression, da hiermit eine
Bestimmung der Wirkungsrichtung der Einfluss-
größen durch die Koeffizienten möglich ist
Logistische Regression
33
 Annahme einer Variablen Z als Linearkombination
der Prädiktoren Xi (aggregierte Einflussgröße):


n
j
jj xz
1
0 *
Logfile-Analyse: Aufbereitete Variablen und
Hypothesen (Zielgröße Click-Out)
34
Variablenkategorie Variable
Ausprägungen/
Wertebereich
Beschreibung Hypothese
Erwartetes
Vorzeichen
Generell
LOG_IN 0: nein, 1: ja Log-In eines Nutzers Kontrollvar. –
WOCHENENDE 0: nein, 1: ja Unterscheidung Wochentag/Wochenende Kontrollvar. –
DAUER_KLICK 1, 00–2.699,99 Durchschnittl. Verweildauer in Sek. je Seitenaufruf H1 +
PRODUKT 0, 1, 2, … Aufruf einer Produktdetailseite H2 –
START 0, 1, 2, … Aufruf der Startseite (Homepage/Index) H3 –
Suchfunktionen
SUCHFELD 0, 1, 2, … Nutzung Suchfeld H4a –
SUCHE_GESCHLECHT 0, 1, 2, … Nutzung Filter Geschlecht H4b –
SUCHE_KATEGORIE 0, 1, 2, … Nutzung Filter Kategorie H4c –
SUCHE_MARKE 0, 1, 2, … Nutzung Filter Marke H4d –
SUCHE_PREIS 0, 1, 2, … Nutzung Filter Preis H4e –
SUCHE_SALES 0, 1, 2, … Nutzung Filter Sales H4f –
SUCHE_SHOP 0, 1, 2, … Nutzung Filter Shop H4g –
Social Shopping
RATING_PROD 0,00–1,00
Anteil Produktdetailseiten, bei denen ein Produkt-
Rating größer/gleich 3 Sterne (60 %) vorhanden ist
H5a +
RATING_SHOP 0,00–1,00
Anteil Produktdetailseiten, bei denen ein Shop-Rating
größer/gleich 3 Sterne (60 %) vorhanden ist
H5b +
LISTE 0, 1, 2, … Aufruf einer Liste H6a –
STYLE 0, 1, 2, … Aufruf eines Styles H6b –
TAG 0, 1, 2, … Nutzung eines Tags (nutzergeneriert) H7 +
PROFIL 0, 1, 2, … Aufruf einer Profilseite H8 –
Transaktion CLICK_OUT 0: nein, 1: ja Weiterleitung zu einem partizipierenden Online-Shop Zielgröße
Quelle: Holsing 2012
Logistische Regressionsanalyse:
Zielgröße Click-Out (0/1)
35
Variable B
Standard-
fehler
Wald Chi-
Square
Exp(B)
95 % Intervall
Untergrenze
95 % Intervall
Obergrenze
Hyp.
bewährt?
Konstante 3,675 0,023 25.215,121*
Generell
LOG_IN (=0) –4,996 0,023 46.938,893* 0,007 0,006 0,007 j
WOCHENENDE (=0) –0,028 0,003 99,669* 0,972 0,967 0,978 j
DAUER_KLICK 0,297 0,001 42.665,871* 1,346 1,343 1,350 j
PRODUKT 0,086 0,003 693,366* 1,090 1,083 1,097 n
START –1,840 0,011 29.026,595* 0,159 0,156 0,162 j
Such-
funktionen
SUCHFELD –0,387 0,002 30.750,964* 0,679 0,676 0,682 j
SUCHE_GESCHLECHT 0,172 0,003 4.751,073* 1,188 1,182 1,194 n
SUCHE_KATEGORIE –0,012 0,002 42,034* 0,988 0,985 0,992 j
SUCHE_MARKE 0,111 0,004 920,943* 1,117 1,109 1,125 n
SUCHE_PREIS 0,310 0,006 2.687,315* 1,363 1,348 1,380 n
SUCHE_SALES 0,212 0,008 675,678* 1,236 1,217 1,256 n
SUCHE_SHOP –0,107 0,006 365,097* 0,899 0,889 0,909 j
Social
Shopping
RATING_PRODUKT 0,003 0,001 10,624** 1,003 1,001 1,005 j
RATING_SHOP 0,213 0,001 48.530,326* 1,238 1,236 1,240 j
LISTE –1,862 0,044 1.780,645* 0,155 0,142 0,169 j
STYLE –0,652 0,021 970,791* 0,521 0,500 0,543 j
TAG –0,222 0,011 394,887* 0,801 0,783 0,819 n
PROFIL –2,584 0,040 4.145,029* 0,075 0,070 0,082 j
Anm.: * p < 0,0001; ** p < 0,001; Likelihood Ratio-Test: χ2(18) = 264.030,374; p < 0,0001; Pseudo-R2 = 0,07; Klassifikationsgüte = 63,4%
Quelle: Holsing 2012
Überblick: Zielgrößen Click-Out und Verweildauer
36
Startseite
Click-Out
Log-In
Besuch Wochenende
Suchfunktionen:
Geschlecht, Marke,
Preis und Sales
Rating
(Produkt und Shop)
Social-Shopping-
Funktionen: Liste,
Profil, Style und Tag
Suchfunktionen:
Suchfeld, Kategorie
und Shop
Verweildauer/Seite
+
–
+
+
+
+
–
+
–
*: bis auf Log-In sind Koeffizienten
signifikant positiv. Verweildauer/
Seite und Rating nicht untersucht.
Stimuli
(unabh. Var.)
Reaktion
(abh. Var.)
Verweildauer
gesamt
+
+ *
Produktdetailseite
 Results also conform
to the following
descriptive results
 Avg. visit duration of
logged-in users: 125
sec.; non-logged-in
users: 202 sec.
 Visit duration in
sessions, in which at
least one list or style
is considered, is
56% higher
 The number of clicks
in such sessions is
substantially higher;
on average 3.7
clicks more
 Click-out rate:
29.9% (overall 41%)
Entscheidungsbaum
37
> 4,224<= 4,224
> 4,916<= 4,916> 4,554<= 4,554 > 0,347
> 5,939> 0,347
> 0,896
<= 5,939 Nein
Nein
Ja<= 0,347
<= 0,896
<= 4,959 > 4,959
<= 0,347
<= 0,896 > 0,896
<= 0,690 > 0,690
Ja
PRODUKT_DAUER
DAUER PRODUKT
SUCHFELD
LOG_IN
DAUER_KLICK SUCHFELD DAUER
PRODUKT_DAUERKAMPAGNEDAUERPRODUKT
7 (n=692.612)
0: 68,66%
1: 31,37%
Quelle: Holsing 2012
Vergleich der Ergebnisse
38
Variablenkategorie Variable Log. Regr. Entscheidungsbaum MLP
Generell
LOG_IN +++ + +/++
KAMPAGNE n. u. + +
WOCHENENDE + o +
DAUER n. u. ++/+++ +++
DAUER_KLICK +++ ++ +++
PRODUKT +/++ ++/+++ +++
MAX_PRODUKT n. u. o ++
PRODUKT_DAUER n. u. +++ ++/+++
START +++ o +++
Suchfunktionen
SUCHFELD +++ ++ +++
SUCHE_GESCHLECHT ++ o ++
SUCHE_KATEGORIE + o ++
SUCHE_MARKE ++ o ++
SUCHE_PREIS ++ o ++
SUCHE_SALES ++ o ++
SUCHE_SHOP + o +
Social Shopping
RATING_PROD + o +
RATING_SHOP ++ o +
LISTE ++ o ++
STYLE +++ o ++
TAG ++ o ++
PROFIL + o ++
+++ starker Einfluss, ++ mittlerer Einfluss, + schwacher Einfluss, o kein Einfluss, n. u.: nicht untersucht
Vergleich der Methoden
39
 Logistische Regression: Anforderungen an Modellprämissen höher,
empfindlich gegenüber Ausreißern, Signifikanzniveau vorhanden
 Unabhängige Variablen: Anzahl verschieden
 Methoden ergänzen sich
Kriterium
Logistische
Regression
Entscheidungsbaum Neuronales Netz
Anzahl Input-Variablen 18 22 22
Variablen im Modell 18 7 22
Klassifikationsgüte in % 63,40 71,58 73,24
Verständlichkeit
Bestimmung der
Wirkungsrichtung
der Einflussgrößen
durch (Effekt-)
Koeffizienten
Baumstruktur ist intuitiv
verständlich (hier
Klickprofile)
Black-Box-Charakter
Quelle: Holsing 2012
Implikationen für das Management einer SSC
40
 Anzahl der Community-Mitglieder erhöhen
 Abgabe von Ratings fördern
 Trotz geringer Nutzung: Social Shopping-Funktionen wirken
signifikant auf Click-Out (negativ) und Stickiness (positiv)
 Social Shopping-Funktionen separieren und wg. mögl. Reaktanz erklären
 Aber: Social Shopping-Funktionen können wichtig sein für:
 Attraktivität (Akquise und Loyalität)
 Förderung Stöbern
 Impulskäufe
 Werbeerlöse (z.B. Banner und Textanzeigen (AdSense))
 Verweildauer erhöhen (Differenzierung stöbern vs zielgerichtet)
 Logfiles für Real-Time Analytics/ CRM/ Business Intelligence
Implikationen für das Management von
Online-Shops
41
 Abgabe von Ratings fördern (für eigenen Shop/ Produkte)
 Konzeption kanalspezifischer Pricing-Strategien
 Aufmerksamkeit durch UGC (Listen, Styles)
 Bsp.: Style Contests von Coach, Nike und Gucci
 Coach: Innerhalb 1 Woche: 3.692 Styles, > 100.000 Likes,
> 200.000 Aufrufe  Word-of-Mouth at it’s best!
 Listen und Styles als Forecasting Tool nutzen
 Integration in ‚Social CRM Strategy‘
 Text Mining von nutzergenerierten Inhalten
 Identifizierung Lead User
 Tracking Conversion Rates
Fazit
42
 Logfile-Analyse liefert neuartige Erkenntnisse zum
Kaufverhalten in SSCs
 Grenzen: Logfiles stammen aus einer frühen
Entwicklungsphase, keine Wiederholungsbesuche erfasst,
Inhalt der Seiten nicht enthalten
 Mögliche weitere Analyse: Einbezug von tatsächlichen
Käufen, Sequenzanalyse
 Ökonomische Relevanz von BIG DATA steigt
DANKE FÜR IHRE
AUFMERKSAMKEIT!
FRAGEN?
KOMMENTARE?
www.lynx-ecommerce.de

Contenu connexe

En vedette

Google Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.at
Google Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.atGoogle Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.at
Google Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.ate-dialog GmbH
 
Zahl des Tages: 438 Millionen Euro
Zahl des Tages: 438 Millionen EuroZahl des Tages: 438 Millionen Euro
Zahl des Tages: 438 Millionen EuroTWT
 
Trends im Schweizer E-Commerce - Vortrag an der SOM 2016
Trends im Schweizer E-Commerce - Vortrag an der SOM 2016Trends im Schweizer E-Commerce - Vortrag an der SOM 2016
Trends im Schweizer E-Commerce - Vortrag an der SOM 2016Carpathia AG
 
PräSentation Zu Datenbanken
PräSentation Zu DatenbankenPräSentation Zu Datenbanken
PräSentation Zu DatenbankenGoetheschule
 
A-COMMERCE Day: E-Commerce Export Land Schweiz
A-COMMERCE Day: E-Commerce Export Land SchweizA-COMMERCE Day: E-Commerce Export Land Schweiz
A-COMMERCE Day: E-Commerce Export Land SchweizCarpathia AG
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilStefan Schwarz
 
Big Data in the Cloud
Big Data in the CloudBig Data in the Cloud
Big Data in the CloudNati Shalom
 
Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)
Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)
Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)epoq internet services GmbH
 
Datenprodukte für Deutschlands größten Fahrzeugmarkt
Datenprodukte für Deutschlands größten FahrzeugmarktDatenprodukte für Deutschlands größten Fahrzeugmarkt
Datenprodukte für Deutschlands größten Fahrzeugmarktinovex GmbH
 
Näher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMC
Näher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMCNäher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMC
Näher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMCAllFacebook.de
 
MOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLAND
MOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLANDMOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLAND
MOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLANDAT Internet
 
Relationship between cloud computing and big data
Relationship between cloud computing and big dataRelationship between cloud computing and big data
Relationship between cloud computing and big dataJazan University
 
THE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHE
THE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHETHE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHE
THE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHEbusiness4brands consulting GmbH
 
CUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHEN
CUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHENCUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHEN
CUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHENbusiness4brands consulting GmbH
 
Personal Branding im Web
Personal Branding im WebPersonal Branding im Web
Personal Branding im WebKarin Friedli
 
Cloud Computing and Big Data
Cloud Computing and Big DataCloud Computing and Big Data
Cloud Computing and Big DataRobert Keahey
 
Online Shops Verschlafen Neue Shopping Trends
Online Shops Verschlafen Neue Shopping TrendsOnline Shops Verschlafen Neue Shopping Trends
Online Shops Verschlafen Neue Shopping TrendsHagen Fisbeck
 

En vedette (20)

Google Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.at
Google Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.atGoogle Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.at
Google Analytics Konferenz 2015_Building a data strategy_Georg Koch_herold.at
 
big data and cloud computing
big data and cloud computingbig data and cloud computing
big data and cloud computing
 
Schlaganfall
SchlaganfallSchlaganfall
Schlaganfall
 
Zahl des Tages: 438 Millionen Euro
Zahl des Tages: 438 Millionen EuroZahl des Tages: 438 Millionen Euro
Zahl des Tages: 438 Millionen Euro
 
Personalisierung (DMS) mit Sitecore
Personalisierung (DMS) mit SitecorePersonalisierung (DMS) mit Sitecore
Personalisierung (DMS) mit Sitecore
 
Trends im Schweizer E-Commerce - Vortrag an der SOM 2016
Trends im Schweizer E-Commerce - Vortrag an der SOM 2016Trends im Schweizer E-Commerce - Vortrag an der SOM 2016
Trends im Schweizer E-Commerce - Vortrag an der SOM 2016
 
PräSentation Zu Datenbanken
PräSentation Zu DatenbankenPräSentation Zu Datenbanken
PräSentation Zu Datenbanken
 
A-COMMERCE Day: E-Commerce Export Land Schweiz
A-COMMERCE Day: E-Commerce Export Land SchweizA-COMMERCE Day: E-Commerce Export Land Schweiz
A-COMMERCE Day: E-Commerce Export Land Schweiz
 
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-KourilBITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
BITKOM_Präsentation Data Intelligence Hub -Schwarz-Kouril
 
Big Data in the Cloud
Big Data in the CloudBig Data in the Cloud
Big Data in the Cloud
 
Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)
Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)
Webinar: Shop-Personalisierung über die Suchfunktion optimieren (25.04.2016)
 
Datenprodukte für Deutschlands größten Fahrzeugmarkt
Datenprodukte für Deutschlands größten FahrzeugmarktDatenprodukte für Deutschlands größten Fahrzeugmarkt
Datenprodukte für Deutschlands größten Fahrzeugmarkt
 
Näher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMC
Näher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMCNäher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMC
Näher geht nicht! Wie Redaktionen WhatsApp als News-Kanal nutzen. #AFBMC
 
MOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLAND
MOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLANDMOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLAND
MOBILE APP BENCHMARK: DER E-COMMERCE-APP-MARKT IN DEUTSCHLAND
 
Relationship between cloud computing and big data
Relationship between cloud computing and big dataRelationship between cloud computing and big data
Relationship between cloud computing and big data
 
THE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHE
THE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHETHE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHE
THE WINNERS LOSE IT ALL DIE PROGRAMMIERTE ZUKUNFT DER FASHION-BRANCHE
 
CUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHEN
CUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHENCUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHEN
CUSTOMER RELATIONSHIP MANAGEMENT X.0 – ANSATZ UND VORGEHEN
 
Personal Branding im Web
Personal Branding im WebPersonal Branding im Web
Personal Branding im Web
 
Cloud Computing and Big Data
Cloud Computing and Big DataCloud Computing and Big Data
Cloud Computing and Big Data
 
Online Shops Verschlafen Neue Shopping Trends
Online Shops Verschlafen Neue Shopping TrendsOnline Shops Verschlafen Neue Shopping Trends
Online Shops Verschlafen Neue Shopping Trends
 

Similaire à BIG DATA im E-Commerce - Potenziale und Herausforderungen des Web Mining am Bsp. eines Online-Shopping-Portals

DE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driverDE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model drivercaniceconsulting
 
Big data mc_05_2014_long
Big data mc_05_2014_longBig data mc_05_2014_long
Big data mc_05_2014_longAxel Poestges
 
Xing LearningZ: Nutzenpotenziale der digitalen Transformation entdecken
Xing LearningZ: Nutzenpotenziale der digitalen Transformation entdeckenXing LearningZ: Nutzenpotenziale der digitalen Transformation entdecken
Xing LearningZ: Nutzenpotenziale der digitalen Transformation entdeckenDigicomp Academy AG
 
Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018
Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018
Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018Digital Analytics Institute
 
Data-Driven Systems - Overview Presentation at InES Symposium 2013
Data-Driven Systems - Overview Presentation at InES Symposium 2013Data-Driven Systems - Overview Presentation at InES Symposium 2013
Data-Driven Systems - Overview Presentation at InES Symposium 2013Prof. Dr. Alexander Maedche
 
Vom datengetriebenen Unternehmen zum Datentreiber
Vom datengetriebenen Unternehmen zum DatentreiberVom datengetriebenen Unternehmen zum Datentreiber
Vom datengetriebenen Unternehmen zum DatentreiberDatentreiber
 
Bluetrade e-commerce mit ibm websphere und lotus connections - lcty dus v02
Bluetrade   e-commerce mit ibm websphere und lotus connections - lcty dus v02Bluetrade   e-commerce mit ibm websphere und lotus connections - lcty dus v02
Bluetrade e-commerce mit ibm websphere und lotus connections - lcty dus v02Joubin Rahimi
 
Big data minds 2013 vorankündigung
Big data minds 2013 vorankündigungBig data minds 2013 vorankündigung
Big data minds 2013 vorankündigungMaria Willamowius
 
Big data im Marketing
Big data im MarketingBig data im Marketing
Big data im MarketingPeter Gentsch
 
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...IDM Südtirol - Alto Adige
 
IKT Forum Ansbach-Martin_Reti
IKT Forum Ansbach-Martin_RetiIKT Forum Ansbach-Martin_Reti
IKT Forum Ansbach-Martin_RetiMartin Reti
 
Der Digitale Kaufprozess - Shopware Community Day 2016
Der Digitale Kaufprozess - Shopware Community Day 2016Der Digitale Kaufprozess - Shopware Community Day 2016
Der Digitale Kaufprozess - Shopware Community Day 2016Carpathia AG
 
Big Data ganz einfach: So rollen Sie mit Erkenntnis den Markt auf
Big Data ganz einfach: So rollen Sie mit Erkenntnis den Markt aufBig Data ganz einfach: So rollen Sie mit Erkenntnis den Markt auf
Big Data ganz einfach: So rollen Sie mit Erkenntnis den Markt aufJan Schoenmakers
 
Keynote Cross Channel Marketing – Cross Channel Marketing Forum
Keynote Cross Channel Marketing – Cross Channel Marketing Forum Keynote Cross Channel Marketing – Cross Channel Marketing Forum
Keynote Cross Channel Marketing – Cross Channel Marketing Forum Nico Zorn
 
Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...
Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...
Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...webLyzard technology
 
Verstehen Sie Ihre Kunden - Reife von Unternehmen
Verstehen Sie Ihre Kunden - Reife von UnternehmenVerstehen Sie Ihre Kunden - Reife von Unternehmen
Verstehen Sie Ihre Kunden - Reife von UnternehmenDigital Analytics Institute
 
Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015
Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015
Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015Roman Dinkel
 

Similaire à BIG DATA im E-Commerce - Potenziale und Herausforderungen des Web Mining am Bsp. eines Online-Shopping-Portals (20)

DE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driverDE - Module 4 - Data as a business model driver
DE - Module 4 - Data as a business model driver
 
Sprechen Sie digital?
Sprechen Sie digital?Sprechen Sie digital?
Sprechen Sie digital?
 
Big data mc_05_2014_long
Big data mc_05_2014_longBig data mc_05_2014_long
Big data mc_05_2014_long
 
Xing LearningZ: Nutzenpotenziale der digitalen Transformation entdecken
Xing LearningZ: Nutzenpotenziale der digitalen Transformation entdeckenXing LearningZ: Nutzenpotenziale der digitalen Transformation entdecken
Xing LearningZ: Nutzenpotenziale der digitalen Transformation entdecken
 
Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018
Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018
Verstehen Sie Ihre Kunden Meetup Köln 08.10.2018
 
Big Data und Business Intelligence
Big Data und Business IntelligenceBig Data und Business Intelligence
Big Data und Business Intelligence
 
Data-Driven Systems - Overview Presentation at InES Symposium 2013
Data-Driven Systems - Overview Presentation at InES Symposium 2013Data-Driven Systems - Overview Presentation at InES Symposium 2013
Data-Driven Systems - Overview Presentation at InES Symposium 2013
 
Vom datengetriebenen Unternehmen zum Datentreiber
Vom datengetriebenen Unternehmen zum DatentreiberVom datengetriebenen Unternehmen zum Datentreiber
Vom datengetriebenen Unternehmen zum Datentreiber
 
Bluetrade e-commerce mit ibm websphere und lotus connections - lcty dus v02
Bluetrade   e-commerce mit ibm websphere und lotus connections - lcty dus v02Bluetrade   e-commerce mit ibm websphere und lotus connections - lcty dus v02
Bluetrade e-commerce mit ibm websphere und lotus connections - lcty dus v02
 
Big data minds 2013 vorankündigung
Big data minds 2013 vorankündigungBig data minds 2013 vorankündigung
Big data minds 2013 vorankündigung
 
Big data im Marketing
Big data im MarketingBig data im Marketing
Big data im Marketing
 
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
Barcamp S[dtirol 2014 - Pascal Lauria - Social media monitoring – Möglichkeit...
 
IKT Forum Ansbach-Martin_Reti
IKT Forum Ansbach-Martin_RetiIKT Forum Ansbach-Martin_Reti
IKT Forum Ansbach-Martin_Reti
 
BigData?
BigData?BigData?
BigData?
 
Der Digitale Kaufprozess - Shopware Community Day 2016
Der Digitale Kaufprozess - Shopware Community Day 2016Der Digitale Kaufprozess - Shopware Community Day 2016
Der Digitale Kaufprozess - Shopware Community Day 2016
 
Big Data ganz einfach: So rollen Sie mit Erkenntnis den Markt auf
Big Data ganz einfach: So rollen Sie mit Erkenntnis den Markt aufBig Data ganz einfach: So rollen Sie mit Erkenntnis den Markt auf
Big Data ganz einfach: So rollen Sie mit Erkenntnis den Markt auf
 
Keynote Cross Channel Marketing – Cross Channel Marketing Forum
Keynote Cross Channel Marketing – Cross Channel Marketing Forum Keynote Cross Channel Marketing – Cross Channel Marketing Forum
Keynote Cross Channel Marketing – Cross Channel Marketing Forum
 
Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...
Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...
Web Intelligence | Marktforschung, Strategische Positionierung, Messung von K...
 
Verstehen Sie Ihre Kunden - Reife von Unternehmen
Verstehen Sie Ihre Kunden - Reife von UnternehmenVerstehen Sie Ihre Kunden - Reife von Unternehmen
Verstehen Sie Ihre Kunden - Reife von Unternehmen
 
Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015
Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015
Inventx - Präsentation Innovationstag Digital Banking Liechtenstein 2015
 

BIG DATA im E-Commerce - Potenziale und Herausforderungen des Web Mining am Bsp. eines Online-Shopping-Portals

  • 1. BIG DATA – der Daten-Tsunami Potenziale und Herausforderungen des Web Mining am Bsp. eines Online-Shopping-Portals Lynx Akademie Dr. Christian Holsing, August 2013
  • 2. Agenda 2 1. Entstehung, Relevanz und Definition 2. Anwendungsszenarien 3. Kritik 4. KDD-Prozess und Data Mining 5. Anwendung: Web Mining im E-Commerce
  • 3. 3 Portfolio E-Commerce@Lynx CONSULTING TECHNOLOGY MARKETING  Strategie-/ Managementberatung:  Online-Geschäftsmodelle  Multichannel-Retailing  Social Commerce  Konzeption und Design Online-Shop und Features  Research + Consumer Insights (Erhebung von Primär- und Sekundärdaten)  Projektmanagement  Interim Management  Partnermanagement (Full Service)  SMART UP:  Coaching von Start-ups  Business Development  Gründercoaching KfW  SAP E-Commerce und Web Channel Experience Management  Open Source Shop-Systeme: • Apache OFBiz/ Lynx eCommerce Suite • Magento  Content-Management-Systeme  Product Information Management (PIM)  Portallösungen  Integration ERP  Online-Marketing  Strategie  Implementierung (SEM, SEO, Display, Affiliate, Social Media, etc.)  Shop-Check (Technik, Usability, CRO)  Web Intelligence:  Web Analytics (Software, Testing und Reporting)  CRM E-Commerce (CRM, Data Mining, Predictive Analytics) Ganzheitliche Beratung aus einer Hand! www.lynx-ecommerce.de
  • 4. 4 Exzellent vernetzt! Mitgliedschaften und Kooperationen K5 Liga Die K5 Liga ist von Exciting Commerce initiiert und vereint Anbieter von Dienstleistungen und Agenturen, die den Online-Handel in strategischen Wachstumsphasen unterstützen. ECC-Club Der ECC-Club ist vom E-Commerce-Center Köln (ECC) mit dem Ziel initiiert, den Wissenstransfer zwischen betrieblicher Praxis und Wissenschaft zu fördern und von den gewonnenen Erkenntnissen zu profitieren. Deutscher Marketing-Verband Vertretung von mehr als 14.000 Führungskräften und marketing-orientierten Unternehmen. Lehrstuhl für BWL, insb. Marketing, Universität Hagen Gemeinsames Forschungsprojekt ‚Affiliate Marketing‘
  • 6. BIG DATA: in aller Munde 6  2011: McKinsey-Studie  2011: Gartner-Hype-Cycle (2 Jahre Mainstream Adoption)  2013: Berichte und Titel  Süddeutsche Zeitung  Die Zeit  FAZ  Spiegel (13. Mai)
  • 7. Zusätzlich zu Transaktionsdaten fallen nun an: 7 Quelle: Bitkom 2012, S. 11
  • 8. Weltweite Menge an Daten wächst rasant 8 Prognose von IDC:  2012: 2,8 Zettabyte Datenvolumen  2020: 40 Zettabyte Datenvolumen Quellen: Bitkom 2012, S. 12 (Abb.); IDC 2012
  • 9. BIG DATA: Definition 9 Quelle: Bitkom 2012  Der Begriff Big Data wurde geprägt, um  die wirtschaftlich sinnvolle Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse  aus qualitativ vielfältigen, unterschiedlich strukturierten Informationen zu bezeichnen,  die zudem einem schnellen Wandel unterliegen und in bisher ungekanntem Umfang anfallen.  Big Data umfasst Konzepte, Methoden, Technologien, IT- Architekturen sowie Tools, mit denen sich die Informationsflut in Bahnen lenken lässt.
  • 11. BIG DATA: Herausforderungen (3 V‘s) 11 Volume VarietyVelocity BIG DATA Quelle: Bitkom 2012
  • 12. Der Markt für IT und Beratung wächst mit! 12  Umsatz mit Big Data-Anwendungen steigt (Bitkom 2012)  2012: 4,6 Mrd. Euro  2016: 16,0 Mrd. Euro  4,4 Mio. neue Jobs im IT-Bereich durch Big Data (Gartner 2012)
  • 13. BIG DATA: Anwendungen 13  Kreditkarten-Missbrauch vorhersagen  Algorithmen zum Verkehrsmanagement  Bonitätsprüfung  Individuelle Medizin  Supermarkt: Kundenkarten, Absatzprognosen, Warenkorbanalysen  Online-Geschäftsmodelle: oft Big Data in Reinkultur  Sammeln, Analysieren und Vermarkten von Informationen  zielgenaue Werbung  Google  facebook
  • 14. Hände hoch! 14  Nutzer einer Kundenkarte?  Meilen-Sammler?  Klick auf Online-Banner?  Profil in Sozialen Medien? Mindestens einmal mit Ja geantwortet? Glückwunsch, auch DU bist BIG DATA-Lieferant! Immer mit Nein geantwortet? Trotzdem Glückwunsch!
  • 16. Kritik 16  Datenerhebung und -auswertung erfolgt oft nach technischen Aspekten  Kritik der Sozialforscherin Danah Boyd:  Größere Datenmengen sind nicht qualitativ besser (rep. Stichprobe)  "Was" und "Warum" seien zwei unterschiedliche Fragen  Bei Interpretationen sei Vorsicht geboten  Nur weil es verfügbar ist, sei es nicht ethisch  Bedeutet Big Data das Ende aller Theorie?  Chris Anderson, Chefredakteur WIRED: Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse von Systemen. Korrelationen werden wichtiger als kausale Erklärungsansätze.
  • 18. Knowledge Discovery in Databases-Prozess 18 Selektion Vor- verarbeitung Trans- formation Data Mining Interpretation/ Evaluation Daten Wissen Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39: „Knowledge discovery in databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data.“ Quelle: Eigene Abb. in Anl. an FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39
  • 19. Data Mining 19 Data Mining = Datenmustererkennung Definition FAYYAD/PIATETSKY-SHAPIRO/SMYTH 1996, p. 39: „Data Mining ist die Anwendung spezifischer Algorithmen zur Extraktion von Mustern aus Daten.“  Daten werden als neues ‚Öl‘ oder ‚Gold‘ bezeichnet  Parallele zum Goldrausch im 19. Jh.:  Diejenigen, die Ausrüstung, Werkzeug und Expertise verkaufen, machen sehr gute Geschäfte  Google: In Stanford entwickelter Algorithmus von BRIN AND PAGE 1998: The Anatomy of a Large-Scale Hypertextual Web Search Engine
  • 20. Web Mining 20 Web Mining Web Content Mining Web Structure Mining Web Usage Mining  Web Content Mining: Extraktion von Wissen (oft auch Text Mining)  Web Structure Mining: Analyse von Seitenstrukturen (Google PageRank)  Web Usage Mining: „data mining activities with the goal to analyse and predict the behaviour of websites’ users“(GROSSMANN/HUDEC/KURZAWA) Quelle: eigene Abb. in Anl. an ZAÏANE 1999
  • 21. Informationsgewinnung im Internet 21  Logfiles:  indirekte Beobachtung  die beobachtete Person ist sich der Beobachtung nicht bewusst ( kein Beobachtungseffekt) Methoden der Informationsgewinnung im Internet Primärforschung Online- Befragung Online- Beobachtung Online- Experiment Online-Panel Sekundärforschung Online- Datenbanken Quelle: Eigene Abb. in Anl. an FRITZ 2004
  • 22. Entscheidungsbaum im Web Usage Mining Bsp.: Kauf im Online-Shop 22 NeinJa < 3 Minuten> 3 Minuten NeinJa Knoten 0 3% Kauf 97% Nicht-Kauf Knoten 1 6% Kauf 94% Nicht-Kauf Knoten 3 9% Kauf 91% Nicht-Kauf Knoten 5 11% Kauf 89% Nicht-Kauf Knoten 6 8% Kauf 92% Nicht-Kauf Knoten 4 5% Kauf 95% Nicht-Kauf Knoten 2 2% Kauf 98% Nicht-Kauf Sonderangebote Verweildauer Wochentag Ziel: Datenobjekte aufgrund der Ausprägungen von unabhängigen Variablen sukzessive in möglichst homogene Teilmengen mit jeweils ähnlichen Werten der Zielgröße aufteilen  Generierung Klassifikationsregeln Wurzel- knoten Quelle: HOLSING 2012
  • 24. Leitfrage der exemplarischen Untersuchung  Welche Faktoren, insbesondere welche Social- Shopping-Funktionen, beeinflussen vorökono- mische und ökonomische Zielgrößen in Social- Shopping-Communities? 24 Stimuli Reaktion (unabhängige Variablen) (abhängige Variable) Funktionen Charakteristika des Käufers Kaufentscheidungs- prozess Untersuchte Zielgrößen des Kaufverhaltens z. B.: kulturelle Problemerkennung Click-Out (Konversion) Startseite soziale Informationssuche Verweildauer Suchfilter persönliche Informationsbewertung Ratings psychologische Entscheidung Social Shopping-Funktionen Nachkaufverhalten beobachtbar beobachtbar Black Box (Organismus) des Käufers nicht beobachtbar Quelle: Holsing 2012
  • 25. Untersuchungsobjekt 25  Logfiles einer führenden Social Shopping Community im deutschsprachigen Raum  Kategorien: Mode, Möbel und Lifestyle  Zielgruppe: Frauen  Ca. 1,5 Mio. Produkte gelistet  Ca. 600 teilnehmende Online-Shops
  • 26. S-O-R-Modell des Kaufverhaltens (KOTLER/ARMSTRONG/WONG/SAUNDERS 2011) 26 Reaktion Marketingstimuli Umfeldstimuli Person Kaufentscheidungs- prozess Kaufentscheidungen Produkt konjunkturelle kulturelle Problemerkennung Wahl eines Produkts Preis technologische soziale Informationssuche Wahl einer Marke Distribution politische persönliche Informationsbewertung Wahl eines Händlers Kommunikation kulturelle psychologische Entscheidung Kaufzeitpunkt Nachkaufverhalten Kaufmenge beobachtbar Exogene Stimuli Black Box (Organismus) des Käufers beobachtbar nicht beobachtbar
  • 27. Logfile-Analyse: Daten und Prozess 27  Tägliche Datenübermittlung an Server  Zeitraum: 6 Monate  Tracking für jeden Besuch: aufgerufene Seiten, Dauer, etc.  Limitationen:  Keine Wiederholungsbesuche  Kein Tracking in partizipierenden Online-Shops 2009-05-21 00:43:59,689|CLICK_OUT|0A7916144EAF0AC292515EB34A0D 9F0C|Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; InfoPath.1)|77.188.xx.xx|NOBOT|zX+itsFeZEG2ss4f|NOT-LOGGED- IN|||/search.searchresultcontainer.clickoutbutton.clickoutform/ 2331697/4681401|2331697|Mode/Bekleidung/Kleider
  • 28. Logfile-Analyse: Orientierung am KDD-Prozess 28  Software: SAS Enterprise Miner 6.2  Pre-processing:  Sessions: 7,8 Mio.  2,9 Mio.  Ziel: Charakterisierung Sessions  4 VariablenkategorienDaten- aufbereitung Logfiles Mustererkennung: -Deskriptiv -Segmentierung (Prognose-) Modellierung Beurteilung und Interpretation
  • 29. Deskriptive Statistiken 29 Variablenkategorie Variable Mittelwert SD Minimum Maximum Median Generell LOG_IN 0,01 0,11 0,00 1,00 0,00 KAMPAGNE 0,68 0,47 0,00 1,00 1,00 WOCHENENDE 0,29 0,45 0,00 1,00 0,00 DAUER 201,13 324,09 2,00 2.699,00 72,00 DAUER_KLICK 34,16 58,34 1,00 1.302,00 17,00 PRODUKT 0,91 2,03 0,00 664,00 0,00 PRODUKT_DAUER 17,28 60,18 0,00 2.261,00 0,00 START 0,09 0,45 0,00 130,00 0,00 Suchfunktionen SUCHFELD 1,15 2,55 0,00 520,00 0,00 SUCHE_GESCHLECHT 0,73 4,02 0,00 430,00 0,00 SUCHE_KATEGORIE 1,48 6,67 0,00 557,00 0,00 SUCHE_MARKE 0,31 2,49 0,00 369,00 0,00 SUCHE_PREIS 0,12 1,69 0,00 220,00 0,00 SUCHE_SALES 0,05 0,96 0,00 234,00 0,00 SUCHE_SHOP 0,12 0,91 0,00 178,00 0,00 Social Shopping RATING_PROD 13,81 32,36 0,00 100,00 0,00 RATING_SHOP 13,66 32,26 0,00 100,00 0,00 LISTE 0,02 0,23 0,00 112,00 0,00 STYLE 0,01 0,16 0,00 95,00 0,00 TAG 0,03 0,57 0,00 183,00 0,00 PROFIL 0,01 0,23 0,00 121,00 0,00 Transaktion CLICK_OUT 0,41 0,49 0,00 1,00 0,00
  • 30. Logfile-Analyse: Deskriptive Statistiken 30  Großteil der Besuche: Wochentag (71,12%)  Sonntags (16,45%) und montags (16,13%) am höchsten  Verlauf: Sinken der Besucherzahlen von So. bis Sa.
  • 31. Logfile-Analyse: Deskriptive Statistiken II 31 Variable HOUR  Anstieg von morgens bis zur Spitze um ca. 21:00 Uhr  Besuche steigen im Tagesverlauf von morgens bis zur Spitze am Abend an, wobei zwischen 21:00 Uhr und 22:00 Uhr die meisten Besuche stattfinden (8,42 Prozent)  Mithilfe dieser Auswertungen könnte z. B. ein Zeitpunkt festgelegt werden, an dem bestimmte Neuigkeiten online gestellt werden, z. B. zur Hauptnutzungszeit
  • 32. Logfile-Analyse: Angewandte Methoden 32  Angewandte Methoden:  Logistische Regression  Entscheidungsbaum  Multi Layer Perceptron (Form eines Künstlichen Neuronalen Netzes)  Fokus auf logistischer Regression, da hiermit eine Bestimmung der Wirkungsrichtung der Einfluss- größen durch die Koeffizienten möglich ist
  • 33. Logistische Regression 33  Annahme einer Variablen Z als Linearkombination der Prädiktoren Xi (aggregierte Einflussgröße):   n j jj xz 1 0 *
  • 34. Logfile-Analyse: Aufbereitete Variablen und Hypothesen (Zielgröße Click-Out) 34 Variablenkategorie Variable Ausprägungen/ Wertebereich Beschreibung Hypothese Erwartetes Vorzeichen Generell LOG_IN 0: nein, 1: ja Log-In eines Nutzers Kontrollvar. – WOCHENENDE 0: nein, 1: ja Unterscheidung Wochentag/Wochenende Kontrollvar. – DAUER_KLICK 1, 00–2.699,99 Durchschnittl. Verweildauer in Sek. je Seitenaufruf H1 + PRODUKT 0, 1, 2, … Aufruf einer Produktdetailseite H2 – START 0, 1, 2, … Aufruf der Startseite (Homepage/Index) H3 – Suchfunktionen SUCHFELD 0, 1, 2, … Nutzung Suchfeld H4a – SUCHE_GESCHLECHT 0, 1, 2, … Nutzung Filter Geschlecht H4b – SUCHE_KATEGORIE 0, 1, 2, … Nutzung Filter Kategorie H4c – SUCHE_MARKE 0, 1, 2, … Nutzung Filter Marke H4d – SUCHE_PREIS 0, 1, 2, … Nutzung Filter Preis H4e – SUCHE_SALES 0, 1, 2, … Nutzung Filter Sales H4f – SUCHE_SHOP 0, 1, 2, … Nutzung Filter Shop H4g – Social Shopping RATING_PROD 0,00–1,00 Anteil Produktdetailseiten, bei denen ein Produkt- Rating größer/gleich 3 Sterne (60 %) vorhanden ist H5a + RATING_SHOP 0,00–1,00 Anteil Produktdetailseiten, bei denen ein Shop-Rating größer/gleich 3 Sterne (60 %) vorhanden ist H5b + LISTE 0, 1, 2, … Aufruf einer Liste H6a – STYLE 0, 1, 2, … Aufruf eines Styles H6b – TAG 0, 1, 2, … Nutzung eines Tags (nutzergeneriert) H7 + PROFIL 0, 1, 2, … Aufruf einer Profilseite H8 – Transaktion CLICK_OUT 0: nein, 1: ja Weiterleitung zu einem partizipierenden Online-Shop Zielgröße Quelle: Holsing 2012
  • 35. Logistische Regressionsanalyse: Zielgröße Click-Out (0/1) 35 Variable B Standard- fehler Wald Chi- Square Exp(B) 95 % Intervall Untergrenze 95 % Intervall Obergrenze Hyp. bewährt? Konstante 3,675 0,023 25.215,121* Generell LOG_IN (=0) –4,996 0,023 46.938,893* 0,007 0,006 0,007 j WOCHENENDE (=0) –0,028 0,003 99,669* 0,972 0,967 0,978 j DAUER_KLICK 0,297 0,001 42.665,871* 1,346 1,343 1,350 j PRODUKT 0,086 0,003 693,366* 1,090 1,083 1,097 n START –1,840 0,011 29.026,595* 0,159 0,156 0,162 j Such- funktionen SUCHFELD –0,387 0,002 30.750,964* 0,679 0,676 0,682 j SUCHE_GESCHLECHT 0,172 0,003 4.751,073* 1,188 1,182 1,194 n SUCHE_KATEGORIE –0,012 0,002 42,034* 0,988 0,985 0,992 j SUCHE_MARKE 0,111 0,004 920,943* 1,117 1,109 1,125 n SUCHE_PREIS 0,310 0,006 2.687,315* 1,363 1,348 1,380 n SUCHE_SALES 0,212 0,008 675,678* 1,236 1,217 1,256 n SUCHE_SHOP –0,107 0,006 365,097* 0,899 0,889 0,909 j Social Shopping RATING_PRODUKT 0,003 0,001 10,624** 1,003 1,001 1,005 j RATING_SHOP 0,213 0,001 48.530,326* 1,238 1,236 1,240 j LISTE –1,862 0,044 1.780,645* 0,155 0,142 0,169 j STYLE –0,652 0,021 970,791* 0,521 0,500 0,543 j TAG –0,222 0,011 394,887* 0,801 0,783 0,819 n PROFIL –2,584 0,040 4.145,029* 0,075 0,070 0,082 j Anm.: * p < 0,0001; ** p < 0,001; Likelihood Ratio-Test: χ2(18) = 264.030,374; p < 0,0001; Pseudo-R2 = 0,07; Klassifikationsgüte = 63,4% Quelle: Holsing 2012
  • 36. Überblick: Zielgrößen Click-Out und Verweildauer 36 Startseite Click-Out Log-In Besuch Wochenende Suchfunktionen: Geschlecht, Marke, Preis und Sales Rating (Produkt und Shop) Social-Shopping- Funktionen: Liste, Profil, Style und Tag Suchfunktionen: Suchfeld, Kategorie und Shop Verweildauer/Seite + – + + + + – + – *: bis auf Log-In sind Koeffizienten signifikant positiv. Verweildauer/ Seite und Rating nicht untersucht. Stimuli (unabh. Var.) Reaktion (abh. Var.) Verweildauer gesamt + + * Produktdetailseite  Results also conform to the following descriptive results  Avg. visit duration of logged-in users: 125 sec.; non-logged-in users: 202 sec.  Visit duration in sessions, in which at least one list or style is considered, is 56% higher  The number of clicks in such sessions is substantially higher; on average 3.7 clicks more  Click-out rate: 29.9% (overall 41%)
  • 37. Entscheidungsbaum 37 > 4,224<= 4,224 > 4,916<= 4,916> 4,554<= 4,554 > 0,347 > 5,939> 0,347 > 0,896 <= 5,939 Nein Nein Ja<= 0,347 <= 0,896 <= 4,959 > 4,959 <= 0,347 <= 0,896 > 0,896 <= 0,690 > 0,690 Ja PRODUKT_DAUER DAUER PRODUKT SUCHFELD LOG_IN DAUER_KLICK SUCHFELD DAUER PRODUKT_DAUERKAMPAGNEDAUERPRODUKT 7 (n=692.612) 0: 68,66% 1: 31,37% Quelle: Holsing 2012
  • 38. Vergleich der Ergebnisse 38 Variablenkategorie Variable Log. Regr. Entscheidungsbaum MLP Generell LOG_IN +++ + +/++ KAMPAGNE n. u. + + WOCHENENDE + o + DAUER n. u. ++/+++ +++ DAUER_KLICK +++ ++ +++ PRODUKT +/++ ++/+++ +++ MAX_PRODUKT n. u. o ++ PRODUKT_DAUER n. u. +++ ++/+++ START +++ o +++ Suchfunktionen SUCHFELD +++ ++ +++ SUCHE_GESCHLECHT ++ o ++ SUCHE_KATEGORIE + o ++ SUCHE_MARKE ++ o ++ SUCHE_PREIS ++ o ++ SUCHE_SALES ++ o ++ SUCHE_SHOP + o + Social Shopping RATING_PROD + o + RATING_SHOP ++ o + LISTE ++ o ++ STYLE +++ o ++ TAG ++ o ++ PROFIL + o ++ +++ starker Einfluss, ++ mittlerer Einfluss, + schwacher Einfluss, o kein Einfluss, n. u.: nicht untersucht
  • 39. Vergleich der Methoden 39  Logistische Regression: Anforderungen an Modellprämissen höher, empfindlich gegenüber Ausreißern, Signifikanzniveau vorhanden  Unabhängige Variablen: Anzahl verschieden  Methoden ergänzen sich Kriterium Logistische Regression Entscheidungsbaum Neuronales Netz Anzahl Input-Variablen 18 22 22 Variablen im Modell 18 7 22 Klassifikationsgüte in % 63,40 71,58 73,24 Verständlichkeit Bestimmung der Wirkungsrichtung der Einflussgrößen durch (Effekt-) Koeffizienten Baumstruktur ist intuitiv verständlich (hier Klickprofile) Black-Box-Charakter Quelle: Holsing 2012
  • 40. Implikationen für das Management einer SSC 40  Anzahl der Community-Mitglieder erhöhen  Abgabe von Ratings fördern  Trotz geringer Nutzung: Social Shopping-Funktionen wirken signifikant auf Click-Out (negativ) und Stickiness (positiv)  Social Shopping-Funktionen separieren und wg. mögl. Reaktanz erklären  Aber: Social Shopping-Funktionen können wichtig sein für:  Attraktivität (Akquise und Loyalität)  Förderung Stöbern  Impulskäufe  Werbeerlöse (z.B. Banner und Textanzeigen (AdSense))  Verweildauer erhöhen (Differenzierung stöbern vs zielgerichtet)  Logfiles für Real-Time Analytics/ CRM/ Business Intelligence
  • 41. Implikationen für das Management von Online-Shops 41  Abgabe von Ratings fördern (für eigenen Shop/ Produkte)  Konzeption kanalspezifischer Pricing-Strategien  Aufmerksamkeit durch UGC (Listen, Styles)  Bsp.: Style Contests von Coach, Nike und Gucci  Coach: Innerhalb 1 Woche: 3.692 Styles, > 100.000 Likes, > 200.000 Aufrufe  Word-of-Mouth at it’s best!  Listen und Styles als Forecasting Tool nutzen  Integration in ‚Social CRM Strategy‘  Text Mining von nutzergenerierten Inhalten  Identifizierung Lead User  Tracking Conversion Rates
  • 42. Fazit 42  Logfile-Analyse liefert neuartige Erkenntnisse zum Kaufverhalten in SSCs  Grenzen: Logfiles stammen aus einer frühen Entwicklungsphase, keine Wiederholungsbesuche erfasst, Inhalt der Seiten nicht enthalten  Mögliche weitere Analyse: Einbezug von tatsächlichen Käufen, Sequenzanalyse  Ökonomische Relevanz von BIG DATA steigt