This is a final presentation we gave at the beginning of July 2015 about your semester project (in German).
You can see the code here: https://github.com/dmpe/SemesterProject
2. Agenda
1. Einführung in das Projekt
2. Einführung in R
3. Explorative Datenanalyse
1. Korrelation & Histogramme
2. Test auf Normalverteilung und QQ-Plot
3. Potenz Transformation (Box-Cox)
4. Lineares Modell
4. Interaktive Aplikation mit Shiny Framework
5. Zusammenfassung
3. 1.Einführung in das Projekt
● Datensatz: Facebook Statistiken über 576 Fan Page-Beiträgen
○ Fan Pages wurden unterschieden auf:
■ Service & Produkt Community
● Ziel: Wie wird User Engagement von Acquaintance beeinflusst?
● Methoden: Statistische Analyse mit R
4. 2. R
● Statistik Software
o von Ross Ihaka und Robert Gentleman in 1991 entwickelt [1]
o seit 1995 unter GNU GPL
● Ist eine Implementierung von S (John Chambers et al. @ Bell Labs 1976) [2]
● Erst aber 2000 stabil und aktiv von R Core Group weiter entwickelt
● Heute >2 Implementierungen: S-PLUS (commerziel) und R (GNU GPL)
o mit vielen weiteren Distributionen:
Revolution R Open (ab 1Q. 2015 Microsoft)
Oracle R Enterprise
5. R
● Geschrieben in C (35%) & Fortran (24%) & R (38%)
● Objekte & Daten werden explizit im RAM gespeichert
o 100 Millionen x 5 Matrix 4 GB RAM [3]
● Sehr umfangreich
o Funktionalität in modularen Pakete aufgeteilt (z.B. von CRAN oder GitHub
zum herunterladen)
● Heute populär bei Forschern für Data Mining Zwecke
o statt SPSS, SAS, Stata usw., siehe TIOBE Index [4]
7. Korrelation
● Beschreibt eine Beziehung zwischen ein oder mehreren Merkmalen
o muss aber keine Ursache-Wirkung-Beziehung (Kausalität) bestehen
● Korrelationskoeffizient r als Maß der Beziehung
o -1 = "Starker negativer Zusammenhang"
o 0 = "Kein Zusammenhang"
o 1 = "Starker positiver Zusammenhang"
Variable/Datensätze Produkt Service Gemeinsam
User Engagement <-> Acquaintance 0.70 0.63 0.54
8. Streudiagramm
"Graphische Darstellung von beobachteten Wertepaaren zweier statistischer
Merkmale" [5]
● Wertepaare werden als Punkte dargestellt
● Das Muster gibt Infos über die Abhängigkeit der beiden Merkmale
12. Normalverteilung
● Bezeichnet eine wichtige Form der Wahrscheinlichkeitsverteilung
o Aussehen und Eigenschaften werden von Erwartungswert und Varianz bestimmt [6, 7]
o Benutzt z.B. bei der annäherten Beschreibung von Körpergröße, Einkommen usw.
14. Überprüfung auf die Normalverteilung
● Verschiedene Möglichkeiten, wie z.B. Chi-Quadrat-Test, QQ-Plot usw.
● QQ-Plot:
o vgl. die Quantile der Normalverteilung Quantile der Daten
o Wenn Punkte annähernd auf einer Geraden liegen normalverteilt
16. Box-Cox (Potenz) Transformation
● Frage: Finde einen Lambda Wert, sodass die Punkte von dem QQ-Plot möglichst
gut auf der Gerade liegen, was auch zu der größten Korrelation führt [8]
Variable/Datensätze Produkt Service Gemeinsam
User Engagement 0.497 0.0005 0.490
Acquaintance 0.895 0.139 0.445
22. Lineares Modell in R
##
## Call:
## lm(formula = yUserEng ~ xAcq)
##
## Residuals:
## Min 1Q Median 3Q Max
## -42.213 -6.108 -1.490 7.728 51.194
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.43115 3.20334 -1.383 0.168
## xAcq 1.20806 0.07288 16.576 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.12 on 298 degrees of freedom
## Multiple R-squared: 0.4797, Adjusted R-squared: 0.478
## F-statistic: 274.8 on 1 and 298 DF, p-value: < 2.2e-16
Eingabe des Linearen Modells in R
Y-Achsenabschnitt (= -4.4)
Steigung der Gerade x (= 1.2)
Bestimmtheitsmaß R^2 (= 0.48)
23. 4. Shiny Framework
● R framework für die interaktive Web Anwendungen [9]
● Jede Shiny App besteht aus:
o UI.R steuert das Layout und Aussehen
o SERVER.R enthält Befehle z.B. zur Berechnungen oder Grafiken
● Basiert auf Twitter's Bootstrap HTML/CSS/JS framework
● Ziel: Wie arbeitet man mit Shiny ?
● Live DEMO: http://shiny.b40.cz/SemesterProject/shiny
24. 5. Zusammenfassung
Start
Einarbeitung in R
u.a. z.B. Shiny
Ende
Explorative Datenanalyse
Box-Cox (Potenz) Transformation
Test auf Normalverteilung ?
Korrelation
Abschätzung Lineares Modell
26. Wir danken für ihre Aufmerksamkeit !
Folgende Werkzeuge wurden benutzt:
● RStudio IDE - http://www.rstudio.com
● Web Applications Framework für R - http://shiny.rstudio.com/
● https://github.com/dmpe/SemesterProject
Haben Sie Fragen ?