Big data analytics johan quist

(Big) Data Analyse
Johan Quist
23 maart 2015

Inhoud
1 Big data en analytics;
waarom big data de vraag naar analytics vergroot
2 Big data, BI en analytics;
van datawarehouse naar datamining
3 Soorten Statistische analyse;
– univariate analyse (samenvatting statistiek)
– bivariate analyse (oa regressie)
– multivariate analyse (supervised en unsupervised)
Big Data sessie 23 maart 2015

Deel 1 big data en analytics
Definitie big data:
"Er bestaat geen exacte definitie van big data (...) De term
‘big data’ verwijst naar dingen die je op een grote schaal kunt
doen en op kleinere schaal niet mogelijk zijn, en waarmee je
nieuwe inzichten verkrijgt of nieuwe vormen van economische
waarde creëert op een manier die invloed heeft op (..) markten,
organisaties en de relatie tussen burgers en overheden”.
"data die niet meer in een normale database past"
(door grootte, structuur en snelheid)
Boek: Mayer/Cukier de big data revolutie

Definitie de 3Vs
• Volume : veel, heel veel
• Variety : gevarieeerd, lees ongestructureerd
• Velocity : hoge omloopsnelheid (denk aan tweets en
facebookgegevens)

Big data en analytics
• Hardware
• Softwarecapaciteiten(statistiek/analytics)
-> twee nieuwe uitdagingen
Twee componenten

Analytics
• Analyses op data om tot inzicht te komen
Andere namen
• Data analytics, Datamining, Statistical learning,
Machine learning, Data Science

Big data en Analytics
om hier grip op te krijgen -> analytics
Door Big data krijgen
organisaties beschikking
over zeer veel data

Analytics en big data/dwh
ook op data in datawarehouses
Analytics mogelijk op alle data

Business cases big data
Typische branchespecifieke doelstellingen
Banken: lening acceptatie
identificeren verdachte transacties
beurskoersvoorspelling
Verzekeraars: polisacceptatie
detectie valse claims
risicoanalyse
premiebepaling
Retail: basket analyse
optimaliseren winkelindeling

Business cases big data (vervolg)
Telecom: churn analyse op basis v. belgedrag
identificeren fraudeurs
Uitgevers,
reclamebureau’s: modelleren Web surfgedrag
media strategie bepaling
oplage voorspelling
publishing on demand
Overheid: daderprofilering (politie),
detectie belastingfraude

Big data en traditionele data
• Big data kan in combinatie met traditionele data een
completer beeld geven
• Vervangen of aanvulling van relationele databases?
Aanvulling! salarisadministratie doe je niet met Hadoop
• de puur praktische zaken waar mensen relationele
databases voor gebruiken.
Dat is niet waar de kracht ligt van Hadoop.
• Big data biedt kansen voor BI-ers

2.0 ‘term’ ook bij big data
• Internet 1.0 (bedrijven gaan op internet)
• -> 2.0 (gaan internet gebruiken in strategie)
• Big Data 1.0 (bedrijven leren omgaan met BD)
• -> 2.0 (bedrijven gaan Big Data gebruiken om dingen
beter te gaan den of nieuwe dingen te gaan doen.
Data Science for business Provost/Fawcett

Deel 2 Big data, BI en analytics
Gewenst is dat de twee werelden bijeen worden gebracht.
‘best of both worlds’
De plek van Big Data in de BI architectuur is eigenlijk niet anders dan
die van gestructureerde data. Het enige verschil is dat je
niet de luxe hebt om de traditionele implementatie te volgen.
BI-ers zullen aan de big data moeten.
“ Klanten zullen dashboards bv willen verrijken met bv het aantal
tweets, facebookvermeldingen. Het meten van allerlei bedrijfs-
processen zal steeds meer gepaard gaan met big data.
BI-ers moeten hier op in springen.”

DB
Datawarehouse
Data
marts
Data Informatie kennis
Werkgebied
BIDB
(Huidig) Werkgebied BI = data enginering
= omzetten van data in informatie, zodat anderen er informatie uit kunnen
halen
Data enginering en data analyse

Opkomst Big Data
Werkgebied BI
‘Big
Data’
Uitdaging 1: Big Data
verwerkingstechnieken
Grip op
big data
Uitdaging 2:
Data analyse
DB
Datawarehouse
Data
marts
DB

Kennis-Pyramide
Data Enginering: data omzetten om informatie te
verkrijgen (‘klassieke’ BI)
Data Analytics: statistische analyse gebruiken om
kennis te verkrijgen

Data driven decision making
Data Science for business
Provost/Fawcett

Grip op (big) data
Verschillende namen voor ongeveer het zelfde:
• Data analytics
• Datamining
• KDD knowlegde discovery from data
• Analytical learning
• Machine Learning
• Data science
Van informatie naar kennis
What’s in a name:
Big data is nu sexy, datamining niet, over 2 jaar ….

Grip op (big) data
Uitdaging 1 Bigdata verwerkingstechnieken:
• Hadoop
• Map Reduce
• NoSQL
• Inmemory
• Virtualisatie etc
-> Andere cursus

Opkomst Big Data
Werkgebied BI
‘Big
Data’
Uitdaging 2:
Data analyse
DB
Data
warehouse
datama
rts
DB
Datamining
engineData
marts
Knowlegde
base

DWH en analytics

Ingredienten statistical learning
Machine Learning/
Pattern
Recognition
Statistics/
AI
Statistical
Learning
Database
systems

De driehoek van de BI-er
DS
Domein
kennis
Science
Statistics,
Analytics
Engineering
DWH,
Hadoop
Java

Grip op alle data
• Grip op data; niet alleen big data
• Om big data betekenisvol te krijgen is analyse nodig.
Technieken werken ook bij ‘gewone data’

Van datawarehouse naar datamining
Werk vooraf aan analyse
• Omgaan met missende waarden
• Omgaan met duplicaten
• Data voorbehandelen
• Aggregatie/integratie

Vb. Omgaan met missende waarden
Strategiën:
1. Negeren
2. Handmatig invullen
3. Vervangen door constante (bv ‘Onbekend’)
4. Vervangen door gemiddelde
5. Vervangen door gemiddelde van zelfde klasse
6. Vervangen door meest waarschijnlijke waarde
Datamining concepts and techniques

Data preprocessing
Werk dat wij (BI-ers) doen!
Zijn wij goed in!!
Data op orde krijgen is vaak 50% van het werk bij
data analyse

CRISP-DM
Breekt het proces van
datamining in zes fases.
CRoss Industry Standard Process for Data Mining

Fases in datamining-project
• Business understanding
• Data understanding
• Data preparation
• Modeling
• Evaluation
• Deployment

studiebronnen
cursus
• Erasmus academie: masterclass grip op big data
• Coursera: introduction to data science (gratis)
Boeken o.a.
• Intro. to statistical learning with applications in R by James e.a.
• Data science for Business by Provost/Fawcett
• Datamining, concepts and techniques by Han/Kamber
• Vele, vele anderen (gratis op het internet)

Mijn achtergrond
• Ik vind statistiek leuk en interessant
• Lange tijd niets mee gedaan (veel vergeten)
• Half jaar geleden weer begonnen
• Ik houd van puzzelen

Deel 3 Overzicht statistische analyse
• Overzicht van verschillende methodes
• No free lunch!
->Afwegen welke methode het meest geschikt is

METHODEN
• Er bestaan heel veel methoden voor analyse van data
• Sommige heel eenvoudig
• Sommige heel ingewikkeld
• Het is niet zo dat er voor ieder probleem slechts 1 juiste
methode bestaat.
• Er bestaat geen methode die voor alle problemen de
oplossing is. Bovendien, voordat er gedacht kan worden over
“de juiste methode”: Zonder goede vraag is het geven van
een goed antwoord onmogelijk.
• Maar kennis van analytische methoden kan helpen de juiste
vraag te stellen

Door meer te weten over analytische methoden,
zul je beter in staat zijn “goede” vragen te
formuleren.
Het is leuk!

Doel: weg vinden in het woud
Kunnen plaatsen van o.a. volgende termen
Univariaat bivariaat multivariaat supervised
unsupervised trainingset testset statistiek gemiddelde
standaardeviatie boxplot regressie classificatie desision
trees neurale netwerken ensembles overfitting pruning
Support Vector Machines clusteranalyse dimension
reduction SPSS R accuracy precision recall nearest
neightbor Bayes Discriminant Analyse etc.

Historie statistische analyse
jaar persoon ontwikkeling
Begin
19e eeuw
Gauss
Legendre
Kleinste kwadraat
Lineaire regressie
1936 Fischer Lineaire discriminant analyse
+- 1940 diversen Logistieke regressie
1980 Opkomst niet lineaire methoden
(dankzij computercapaciteit)
Machine learning
1980 Opkomst DWH’s;
2010 Verdere toename hoeveelheid data
Big data
Verdere opkomst freeware R
(democratisering van de data-analyse)

R
Programmeertaal voor statistische analyse
Gratis :http:/www.r-project.org/
Veel tutorials
Gebruikers delen hun code

Werken met R
R in combinatie met R studio
Integraties R en andere tools (bv Tableau)
Taal/syntax redelijk ingewikkeld, zal wel makkelijker
worden (democratiseren analytics)
Kennis van de algoritmes zal noodzakelijk blijven!

Werken met R
• Packages beschikbaar
• Data eenvoudig te laden
• Printmogelijkheden (plotten)

R en big data
Hadoop; packages RHadoop, Rhipe, SparkR
In-memory; package h2o
MongoDB; packages rmongodb, Rmongo
http://www.rdatamining.com/big-data/r-hadoop-setup-guide

Soorten analyse
• Univariaat een enkele kansvariabele
beschrijvende statistiek
• Bivariaat twee kansvariabele
verbanden tussen twee
• Multivariaat meerdere kansvariabele
verbanden tussen meerdere variabelen

Univariaat
(Samenvatting statistiek)
• Gemiddelde (meest gebruikte)
• Mediaan
• Standaarddeviatie
• Normaalverdeling
• Variantie
• Boxplot

Gemiddelde, Mediaan, Modus
• Gemiddelde de meest gebruikte meetwaarde
is erg gevoelig voor uitschieters.
• Mediaan waarde van middelste, centrummaat
• Modus waarde die meest voorkomt

Range, Variantie
• Range is het verschil tussen de max. en de min.
• De variantie / standaardeviatie; meetwaarde om
spreiding weer te geven.

Normaalverdeling
meest voorkomende continue
verdeling
Of Gauss-verdeling door
Carl Friedrich Gauss (+- 1920)

Visualisatie; box plot
• Box Plots
– Uitgevonden door J. Tukey
– Manier om verdeling in data weer te geven
– Following figure shows the basic part of a box plot
outlier
10th percentile
25th percentile
75th percentile
50th percentile
10th percentile

R studio
Schermen opbouw R studio
• Source en save
• Console
• Environment/History
• Files/Plots/Package/Help/viewer

R Voorbeeld
Voorbeeld 1

Bivariate analyse
• Twee dimensionale data
• Univariaat: beschrijvend Bivariaat: verklarend
• Visualisatie: scatterplot

Regressie
Statistische techniek om samenhang tussen
gegevens weer te geven.
Voor het eerst gebruikt
door Francis Galton in
+- 1870

Regressie en correlatie
Bij correlatie vergelijkt men de variaties van twee
variabelen gemeten op interval- of ratio-niveau.
De correlatiecoëfficiënt (R) is een maat voor het
gezamenlijk variëren van twee variabelen
Bij enkelvoudige regressieanalyse stelt de onderzoeker
eerst vast welke variabele afhankelijk is en welke
onafhankelijk. Regressieanalyse veronderstelt dus
causaliteit tussen de variabelen.

Regressie
Samenhang wordt weergegeven in een functie.
Enkelvoudig: Y = ax + b
Meervoudig: Y = a1 x1 + a2 x2 + an xn + b
Het gaat om correlaties/verbanden weergegeven van
0 (geen verband tussen X en Y) tot
1 (volledig verband)

Berekeningswijze Regressie
Gauss berekende er
de baan van de pas
ontdekte planetoïde
Ceres mee
Kleinste kwadraatmethode
Ontdekt door Gauss en Legendre (tegelijkertijd)

R Voorbeeld: regressie

Verschillende types attributen
• Nominaal
Voorbeelden: ID nummers, oogkleur, codes
• Ordinaal
Voorbeelden: rankings (b.v. smaak van chips op schaal van 1-10),
graden, hoogte in {groot, medium, kort}
• Interval
Voorbeelden: kalender data, temperatuur in Celsius of Fahrenheit.
• Ratio
Voorbeelden: temperatuur in Kelvin, lengte, tijd, aantallen

Regressie bij dichotome variabelen
Wat als de verklarende variabelen dichotoom is?
Bijvoorbeeld: hangt bloeddruk af van het geslacht?
Geen probleem. Eventueel dummy-waardes nodig
Kleur: rood-geel-blauw (dummy-waardes per kleur)
Nr Kleur Rood Geel blauw
1 Blauw 0 0 1
2 Rood 1 0 0
3 geel 0 1 0

Regressie bij dichotome variabelen
Continu: ok
Dichotoom: ok
Nominaal met meer dan twee categorieën: maak
dummy’s (hulpvariabelen)
Ordinaal: als er sprake lijkt van een lineaire trend: ok,
anders dummy’s
Wat als verklaarde variabele dichotoom is:
Dan lineaire regressie niet mogelijk, wel logistieke
regressie (komt verderop)

Multivariate analyse
Relaties tussen meerdere variabelen opsporen.
Twee groepen
• Supervised learning
• Unsupervised learning

Wat is Supervised learning?
Er is sprake van een afhankelijke, te voorspellen variabele
Aan de hand van gegevens zoeken we een functie/algoritme
die de gegevens (onafhankelijke variabelen) omzet naar een
uitkomst “klasse”
Bv. welke klanten zullen niet in staat zijn hun lening af te
lossen. (kijken naar bv leeftijd, geslacht, afkomst)
Y zo goed mogelijk schatten aan de hand van X

Test en training
Data wordt gesplitst in een
• Training set
• Test set
• Trainingset wordt gebruikt om functie te vinden
• Testset wordt gebruikt om vast te stellen hoe goed de
functie het doet.

Test en training
Apply
Model
Induction
Deduction
Learn
Model
Model
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes
10
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ?
10
Test Set
Learning
algorithm
Training Set

Wat is Unsupervised Learning?
• Geen sprake van afhankelijke, te voorspellen waarde
• We zoeken naar structuren/verbanden
• Bv. hoe (in welke groepen) kunnen we onze klanten
onderverdelen

Wat is Unsupervised learning? 2
• Proberen structuur te brengen in ogenschijnlijk
ongestructureerde gegevens
• Kan als aanzet dienen bij opstellen van verdere
onderzoeksvragen.
• Maar dat hoeft niet
(voorbeelden later)

Supervised Learning
Regressie voor meer variabelen
Multiple regressie
Y = a1 x1 + a2 x2 + an xn + b
Confounder: wat is de (echt) bepalende factor?

relatie studieuren en cijfer
Linear Regression
2,50 5,00 7,50 10,00 12,50
studieuren
5,00
6,00
7,00
8,00
9,00cijfer





 



cijfer = 7,76 + -0,09 * studieuren
R-Square = 0,09
Hoe langer je studeert hoe lager je cijfer ??

Vooropleiding meegenomen
 hoog
 laag
vooropleiding
2,50 5,00 7,50 10,00 12,50
studieuren
0,00
4,00
8,00
12,00
cijfer





 




Confounder
• In beide groepen, gevormd op grond van de
vooropleiding, is een positief effect van studie-uren
op het cijfer
• Dit effect is in beide groepen ongeveer gelijk
• Als we geen rekening houden met de vooropleiding,
schatten we het effect van studie-uren op het cijfer
totaal verkeerd
• Vooropleiding wordt een confounder genoemd

Lineaire Regressie mogelijk?
Regressie gaat uit van interval of ratio-nivo
De afhankelijke variabelen zijn continue van aard. Ook
wel kwantitatieve analyse genoemd
Wat als afhankelijke variabelen nominaal
of ordinaal zijn?
Lineaire Regressie is dan niet mogelijk. Wel mogelijk
zijn kwalitatieve analysemethodes

Logistieke regressie
Alternatief: Logistieke regressie
Regressie geschikt voor variabelen die dichotoom van
aard zijn
niet de dichotome uitkomst zelf wordt gemodelleerd,
maar de kans op die uitkomst.
http://www.ru.nl/socialewetenschappen/rtog/tips/onderdelen/logistische/

R Voorbeeld logistieke regressie

Classificatie
indelen of het van objecten, verschijnselen of
processen in groepen op grond van
overeenkomsten of verwandschap in
eigenschappen of kenmerken
Waarden zijn niet kwantitatief, zoals bij regressie

Voorbeelden bij classificatie
• Zegt een klant zijn abonnement op?
• Wordt er gefraudeerd?
• Krijgt een schip een ongeluk?
Hoe classificeren we de opzeggers, fraudeurs, zinkende
schepen?

Classificatie technieken
• Decision Tree methoden
• Ensembles
• Nearest neigthbors
• Rule-based methoden
• Discriminant analyse
• Neurale netwerken
• Naïve Bayes and Bayesian Belief Networks
• Support Vector Machines

Vergelijken methodes
Regressie is bv sterk vereenvoudigd, eenvoudig te
schatten, eenvoudig te interpreteren, maar tamelijk
beperkt.
Andere methodes zijn soms moeilijker te interpreteren
maar voorspellen weer beter
Keuze bij methode:
Trade-off tussen simplicity en accuracy
Interpreteerbaarheid - Voorspelbaarheid

Interpreteerbaar - Flexibel
flexibiliteit
laag hoog
interpretrrbaar
hooglaag
Trees
Regressieanalyse
Bagging/
boosting
Support vector
machines

Beperkingen accuracy
Er zijn bijvoorbeeld 2-klassen
• aantal van klasse A = 9990
• Aantal van klasse B = 10
Als een model altijd klasse A voorspelt, is de accuracy
9990/10000 = 99.9 %
-> Accuracy is misleidend omdat het model geen klasse B
voorspelt (vb. Alle schepen zullen blijven drijven)

Andere maten
ba
a
ca
a




(r)Recall
(p)Precision
Precision: (aantal werkelijke positieven)
/(totaal aantal voorspelde positieve)
Recall: (aantal werkelijke positieven)
/(aantal werkelijke positieven + foute
negatieven)

Decision trees
• Intuïtief
• Qua rekenwerk eenvoudig
• Eenvoudig interpreteerbaar
• Voorbeeld: spelletje
• Ik heb een beroemd persoon in mijn hoofd
• Jullie mogen vragen stellen ik antwoord alleen
met ja of nee
• Wat zijn goede vragen

Voorbeeld decision tree
Refund
MarSt
TaxInc
YESNO
NO
NO
Yes No
MarriedSingle, Divorced
< 80K > 80K
Splitting Attributes
Training Data Model: Decision Tree
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10

Decision trees
Essensiële vragen
• Hoe bepalen welke variabelen we gebruiken
om te splitsen
• Wanneer stoppen we met splitsen

Decision Trees: puurheid
• Impurity
• Maximale impurity: van iedere klasse evenveel
waarnemingen in een knoop
• Minimale impurity: blad komt precies overeen
met een klasse
• We willen van impure naar pure
• Maten voor impurity : bv. Gini, Entropy

Wanneer stoppen met opsplitsen
• Teveel splitsen : overfitting
• werkt dan wel goed voor de trainingsdata
• Maar niet meer voor de testdata
• stopcriteria

R voorbeeld Decision trees

Ensembles van Decision Trees
• Overfitting voorkomen -> snoeien
• Gaat ook voorspelkracht achteruit
• Methode die goede voorspelkracht heeft en
niet zo variabel
• -> essembles
• Idee “wisdom of the crowds

Bootstrap
• In plaats van 1 voorspeller , meerdere
• Bootstrap: meerdere steekproeven
• Steekproeven gebruiken om tot betere
voorspeller te komen.
• Essemble van voorspellers

Bagging
• Trek B bootstrap samples (bv 500)
• Maak voor iedere sample een boom
• Combineer de resultaten
• Dit heet Bagging (bootstrap aggragating)
• Andere methode: Random Forest

R voorbeeld random forest

Nearest neightbors
• Basis idee
Als het er uit ziet als een eend en kwaakt als een eend
dan is het waarschijnlijk een eend
Unknown record

Werkwijze
– Bereken afstand tot andere training records
Euclidean distance
– Identiceer k nearest neighbors
– Label ze

Vgl lineair model en nearest neightbors
• k-NN classifiers zijn langszame leerders
• NN- Modellen worden niet expliciet opgebouwd
• Het linear model maakt veel assumpties over de
structuur van het probleem, maar is vrij stabiel
• Nearest neighbors is vrijwel assumptie-vrij,maar
resultaten kunnen vrij instabiel zijn
• Beide methoden kunnen krachtiger zijn in
verschillende settings door verschillende redenen

R voorbeeld nearest neightbors

Ruled based classificatie
R1: (Give Birth = no)  (Can Fly = yes)  Birds
R2: (Give Birth = no)  (Live in Water = yes)  Fishes
R3: (Give Birth = yes)  (Blood Type = warm)  Mammals
R4: (Give Birth = no)  (Can Fly = no)  Reptiles
R5: (Live in Water = sometimes)  Amphibians
Name Blood Type Give Birth Can Fly Live in Water Class
human warm yes no no mammals
python cold no no no reptiles
salmon cold no no yes fishes
whale warm yes no yes mammals
frog cold no no sometimes amphibians
komodo cold no no no reptiles
bat warm yes yes no mammals
pigeon warm no yes no birds
cat warm yes no no mammals
leopard shark cold yes no yes fishes
turtle cold no no sometimes reptiles
penguin warm no no sometimes birds
porcupine warm yes no no mammals
eel cold no no yes fishes
salamander cold no no sometimes amphibians
gila monster cold no no no reptiles
platypus warm no no no mammals
owl warm no yes no birds
dolphin warm yes no yes mammals
eagle warm no yes no birds

Discriminant analyse
Uit 1936 ! Door R.A. Fischer
Een beslissingsprocedure om van een nieuwe
waarneming uit te maken bij welk van een aantal
gegeven sets waarnemingen deze het beste past. In een
eenvoudig geval is van elk van twee populaties een
steekproef bekend. Van een nieuwe waarneming is
weliswaar bekend dat deze uit een van de beide
populaties afkomstig is, maar niet uit welke.

Neurale netwerken
-het knooppunt: Te vergelijken met
het neuron in een menselijk brein.
-de koppeling: Te vergelijken met
de verbindingen tussen deze
neuronen
http://gekkoquant.com/2012/05/26/neural-networks-with-r-simple-example/
Een neuraal netwerk is in enige mate gebaseerd op de
organisatie van het menselijke brein en de manier waarop
de hersenen leren. Er zijn twee belangrijke structuurelementen
in het neurale netwerk:

Neurale netwerken
Qua prestaties blijkt uit de literatuur dat neurale
netwerken een grotere voorspelkracht hebben dan de
klassieke statistische methoden als regressie- en
discriminantanalyse, vooral indien de onderliggende
relaties niet-lineair zijn. De prestaties van meer-
geavanceerde statistische methoden zijn echter
vergelijkbaar met die van neurale netwerken.

R voorbeeld neuraal netwerk

Naïve Bayes
Gebaseerd op theorema van Bayes:
kans op gebeurtenis uitgedrukt in voorwaardelijke
kansen bij elk van de mogelijkheden

Idee Bayes
Bayesiaanse statistiek <-> Frequentische statistiek
Bayes gedachte:
kennis uit het verleden toe passen om statistische
voorspellingen te maken. Krijg je eerlijkere
voorspellingen, die niet blind zijn voor de wereld naast
de statistiek, zoals dat bij de gewone (frequentistische)
statistiek wel is.

Bayes theorema : een voorbeeld
Gegeven:
– Een dokter weet dat meningitis in 50% van de gevallen
nekpijn veroorzaakt
– De kans dat een patient meningitis heeft is 1/50,000
– De kans dat een patient nekpijn heeft is 1/20
• Als een patient nekkramp heeft, wat is dan de kans dat hij
meningitis heeft?
0002.0
20/1
50000/15.0
)(
)()|(
)|( 


SP
MPMSP
SMP

Voorbeeld Naïve Bayes: reumatest
P(Z)=0,01 (kans dat iemand de ziekte heeft)
P(+|Z)= 0,70 (de kans op een positieve uitslag als de ziekte aanwezig is)
P(-|niet Z)=0,80 (de kans op een negatieve uitslag als de ziekte afwezig is)
P(Z|+) = P(+|Z)P(Z) . = 0,70x0,01 .
P(+|Z)P(Z)+P(+|niet Z)P(niet Z) 0,70x0,01+0,20x0,99 = 0,034
Dus zelfs bij een positieve uitslag van de test is de kans dat de onderzochte
persoon de ziekte heeft maar iets meer dan drie procent.
Conclusie: De "reumatest" is in deze situatie nagenoeg onbruikbaar.

Naïve Bayes - samenvatting
• Robuust mbt afwijkende punten
• Ontbrekende waarden zijn eenvoudig op te vangen
• Maakt sterke veronderstellingen:
Onafhankelijkheid,
Continue data met normale distributie
(preprocessing vaak noodzakelijk)

Voorbeeld Bayes

Support Vector Machines
• Bedacht in jaren 60 (Vapnik)
• Methode van data classificeren
• Binair classificeren in een vectorruimte

Doel : scheidslijn vinden om data te scheiden

Een mogelijkheid
B1

B2
Een andere mogelijkheid

Welke is beter? B1 or B2?
Hoe definieer je wat beter is?
B1
B2

Support Vectors:
Punten die door de ‘dikke lijn’geraakt worden

Unsupervised Learning
Geen sprake van afhankelijke, te voorspellen waarde. We
zoeken naar structuren/verbanden. Geen voorspellingen.
We zoeken bijvoorbeeld naar gelijksoortige groepen.
Voorbeelden:
• Clusteranalyse
• Dimensie reductie

Clusteranalyse
Observaties in “homogene” groepen indelen
Zoek naar clusters van waarnemingen die gelijksoortig
zijn en interpreteer de clusters door te kijken naar de
verschillen/overeenkomsten m.b.t. geobserveerde
variabele waarden in de verschillende clusters.

Clusteranalyse
Soorten:
• Hierarchisch
• K-means

Hierarchische Cluster Analyse
• Beschouw iedere waarneming als een cluster
• Bereken de afstanden tussen alle clusters
• Voeg clusters die het dichts bij elkaar liggen samen
• Ga door tot er één cluster over is (of een van te voren
bepaald aantal)
Er zijn verschillende maten om de afstanden te bepalen
- Euclidisch, Minkowski, Manhattan, Cosine en vele
andere

Hierarchische clusering
p4
p1
p3
p2
p4p1 p2 p3
Traditional Hierarchical Clustering Traditional Dendrogram

K-means
• Bij hierarchische clustering moeten de afstanden
tussen alle punten berekend worden
• Kan snel een probleem worden
• Partieel clusteren is hiervoor een oplossing: K-
means

K-means
• Ieder cluster heeft een centroide (gemiddeld punt in
een cluster
• Idee: voeg waarnemingen toe aan het cluster wiens
centroide het dichtst bij zit
• Maar centroide hangt af van de punten in het cluster

Clustering: K-means
Algoritme
1. Maak k clusters (wijs punten bijvoorbeeld willekeurig
toe aan 1 van de k clusters
2. Bereken voor ieder punt de afstanden tot de k cluster
centroides. Wijs punten toe aan dichtstbijzijnde
cluster
3. Je hebt nu nieuwe clusters. Bereken daar weer de
centroides bij en ga terug naar stap 2. Herhaal tot er
niets meer veranderd.

Cluster analyse: aantal clusters
• Hoe bepalen we hoeveel clusters we zoeken?
• Bij hierarchische clustering kun je het hele
dendogram bekijken en daarop je keue baseren
• Bij K-means moet je aangeven hoeveel clusters
• Kies de maat van de ‘cluster kwaliteit’ . Bereken die
maat voor verschillende K en kijk welke K optimaal is
• Cluster kwaliteit: bv variantie binnen clusters moet
klein zijn. Variantie tussen de clusters moet groot zijn.

Clusteranalyse
SSE-methode
Voor verschillende waarde van K berekenen we de som
van de gekwadrateerde afstanden (SSE)
Andere methode : Calinski-Harabasz
(kijkt naar de variantie tussen de clusters)

R Voorbeeld Cluster analyse

Dimensie reductie
• Als er heel veel variabelen zijn dan is het lastig om
middels eenvoudige statistiek het overzicht te
behouden
• Kleinere set van variabelen wenselijk
• Dimensie reductie methoden zoeken naar zo’n
kleinere set

Dimensie reductie
• Methode om een (liefs klein) aantal samengestelde
variabelen te vinden die de data goed beschrijven
• Voorbeeld methode:
Principale component analyse (PCA)
PCA = zoeken naar laag-dimensionele presentatie van
de observaties
Clustering = zoeken naar homogene subgroepen

Voorbeeld inleiding R
n<-15 #waarde wordt toegekend aan variabele n
n # laat n zien, [1] betekent: het eerste element
5->n # anderso kan ook
n
n<-2+10 #optellen
n<-rnorm(1) # random variabele met gem. 0
n #komt (random) dus steeds andere waarde uit
?rnorm # hulp over rnorm
x <- c(3, 7, 10, 20) # definieren van een vector x
mean(x) # gemiddelde
median(x) # mediaan
sqrt(x) # wortel
y <- x^2 # we definieren een vector y
x # laat x zien
y # laat y zien
cor(x,y) # correlatie tussen x en y
boxplot(x) # mediaan, 1e en 3e kwartiel (mediaan van 1e en 2e helft)
# kleinste en grootste waarneming
plot(x, y, main="Scatterplot Example",
xlab="x as", ylab="y as", pch=19)
summary(x) # allerlei statistische gegevens over x
#dubbelen verwijderen
x2 <- c (1 , 1, 1, 2, 2, 2, 3, 3, 3, 3)
duplicated (x )
x2 <- x[! duplicated (x )]
x2
#normaalverdeling
x <- rnorm(50); y <- rnorm(50) #random norm
hist(x, main="histogram")
boxplot(x, main="boxplot")
text(0,5,"histogram") # print "histogram" in het punt (0,5)
plot(x,y,main="figuur 1")
qqnorm(x, main="qq-plot") # qq-plot
y <- 0:30
plot(y, dbinom(y, 30, 0.25), type = "h")

Voorbeeld packages
# voorbeeld laden packages
install.packages('party') # package installeren
library(party) # party laden
# irisdataset, bevat 150 irissen die behoren tot drie soorten
# Setosa, Versicolor en Viginica
# Irissen zijn beschreven adhv vier eigenschappen
# lengte en breedte van bloemblaadjes(petal) en kelkblaadjes (sepal)
str(iris) # iris laten zien, structuur
summary(iris) # belangrijke gegevens
table(iris$Species)
pie(table(iris$Species))
var(iris$Sepal.Length) # variatie in lengte
hist(iris$Sepal.Length) # normaalverdeling lengte

Voorbeeld regressie
year <- rep(2008:2010, each = 4)
quarter <- rep(1:4, 3)
cpi <- c(162.2, 164.6, 166.5, 166, 166.2, 167, 168.6, 169.5, 171,
172.1, 173.3, 174)
plot(cpi, xaxt = "n", ylab = "CPI", xlab = "")
axis(1,labels=paste(year,quarter,sep="Q"), at =1:12, las =3)
cor(year,cpi) ##serke correlatie jaar en cpi
cor(quarter,cpi) ##minder sterke corr. quarter en cpi
fit <- lm(cpi ~ year + quarter) # lineair model
fit
cpi2011 <- fit$coefficients[[1]] +
fit$coefficients[[2]] * 2011 +
fit$coefficients[[3]] * (1:4)
cpi2011 ##voorspellen 2011
##3d plot
library(scatterplot3d)
s3d <- scatterplot3d(year, quarter, cpi, highlight.3d = T, type = "h",
lab = c(2, 3)) # lab: number of tickmarks on x-/y-axes
s3d$plane3d(fit) # draws the fitted plane

Voorbeeld logistieke regressie
# voorbeeld logistieke regressie
library("MASS")
data(menarche)
str(menarche) # str geft structuur van de data
menarche # leeftijd, totaal aantal meisjes, leeftijd eerste mens.
summary(menarche)
plot(Menarche/Total ~ Age, data=menarche) # plot %dat menache heeft gehad , 1 = 100%
# voorbeeld log. regressie
# lineair verband tussen leeftjd en menstruatieleeftijd
# uitkomst is dichotoom per indivdu (wel/niet), vandaar geen lin.regressie mogelijk
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, family=binomial(logit), data=menarche)
#logit -> logistieke regressie
lines(menarche$Age, glm.out$fitted, type="l", col="red")
title(main="Menarche Data with Fitted Logistic Regression Line")
# lijn volgt heel goed de punten
summary(glm.out)

Voorbeeld Decision Tree
tree.model
my.prediction <- predict(tree.model, test.set)
my.prediction
install.packages('tree')
library(tree)
plot(tree.model)
text(tree.model
rpart.tree <- rpart(Species ~ ., data=train.set)
plot(rpart.tree, uniform=TRUE, branch=0.6, margin=0.05)
text(rpart.tree, all=TRUE, use.n=TRUE)
title("Training Set's Classification Tree")
predictions <- predict(rpart.tree, test.set, type="class")
table(test.set$Species, predictions)
confusion<-table(predictions,irisdata)
y
prediction
plot(iris$Petal.Length, iris$Petal.Width, main="Edgar Anderson's Iris
Data"))
test_sample = sample(1:150, 50)
test_data = iris[test_sample, ]
training_data = iris[-test_sample, ]
fit_tree = tree(iris.type ~ ., data = training_data)
test_predictions = predict(fit_tree, test_data, type = "class")
test_error = sum(test_predictions != test_data$iris.type)/nrow(test_data)
test_error
str(iris)
iris
library("party")
iris_ctree <- ctree(Species ~ Sepal.Length + Sepal.Width + Petal.Length +
Petal.Width, data=iris)
print(iris_ctree)
plot(iris_ctree)
fancyRpartPlot(iris_ctree, cex=.7)
predict<-predict(iris_ctree,type="prob")
irisdata<-iris
y<-irisdata$type
confusion<-table(predict,y)
confusion
irisdata
predict
table(predict())
set.seed(101)
alpha <- 0.7 # percentage of training set
inTrain <- sample(1:nrow(iris), alpha * nrow(iris))
train.set <- iris[inTrain,]
test.set <- iris[-inTrain,]
train.set
test.set
tree.model <- tree(Species ~ Sepal.Width + Petal.Width, data=train.set)
)

Voorbeeld random forest
# split into two subsets: training (70%) and test (30%)
ind <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3))
train.data <- iris[ind==1,]
test.data <- iris[ind==2,]
# use all other variables to predict Species
library(randomForest)
rf <- randomForest(Species ~ ., data=train.data, ntree=100, proximity=T)
table(predict(rf), train.data$Species)
print(rf)
plot(rf, main = "")
importance(rf)
varImpPlot(rf)
irisPred <- predict(rf, newdata = test.data)
table(irisPred, test.data$Species)
plot(margin(rf, test.data$Species))

Voorbeeld Nearest Neightbors
## voorbeeld nearest neightbors
# 3 punten in klasse A
A1=c(0,0)
A2=c(1,1)
A3=c(2,2)
# 3 punten in Klasse B
B1=c(6,6)
B2=c(5.5,7)
B3=c(6.5,5)
# bouwt de classificatie
train=rbind(A1,A2,A3, B1,B2,B3)
plot(train) # laat de punten zien in een plot
cl=factor(c(rep("A",3),rep("B",3)))
#kijken bij welke klasse een punt valt
test=c(4,4)
library(class)
# call knn() and get its summary
summary(knn(train, test, cl, k = 1))
# valt dus in klasse b, (daar staat 1)
# ander punt testen, dat in a blijkt te vallen
test=c(3.5, 3.5)
summary(knn(train, test, cl, k = 1))

Voorbeeld Neural Networks
install.packages('neuralnet')
library("neuralnet")
#Maken van een neural network dat vierkantswortel berekend
#Type ?neuralnet voor meer info
#Genereer 50 random nummers uniform gedistr. tussen 0 and 100
#en bewaar het als een dataframe
traininginput <- as.data.frame(runif(50, min=0, max=100))
trainingoutput <- sqrt(traininginput)
#Column bind the data in een variabele
trainingdata <- cbind(traininginput,trainingoutput)
colnames(trainingdata) <- c("Input","Output")
#Train het neurale network
#10 hidden layers
#Threshold is a numeric value specifying the threshold for the partial
#derivatives of the error function as stopping criteria.
net.sqrt <- neuralnet(Output~Input,trainingdata, hidden=10, threshold=0.01)
print(net.sqrt)
#Plot het neurale network
plot(net.sqrt)
#Test neural network met trainingsdata
testdata <- as.data.frame((1:10)^2) #Generate some squared numbers
net.results <- compute(net.sqrt, testdata) #Run them through the neural network
#Lets see what properties net.sqrt has
ls(net.results)
#zie resultaten
print(net.results$net.result)
#Lets display a better version of the results
cleanoutput <- cbind(testdata,sqrt(testdata),
as.data.frame(net.results$net.result))
colnames(cleanoutput) <- c("Input","Expected Output","Neural Net Output")
print(cleanoutput)
/

Voorbeeld Bayes
install.packages("e1071")
library(e1071)
# bouwen van naiveBayes
data(iris)
# m <- naiveBayes(Species ~ ., data = iris)
m <- naiveBayes(iris[,-5], iris[,5])
m
table(predict(m, iris), iris[,5])

Voorbeeld Clusteranalyse
# voorbeeld clustering
set.seed(8953) # random nummer generator
iris2 <- iris
# remove class IDs
iris2$Species <- NULL
# k-means clustering met 3 clusters
iris.kmeans <- kmeans(iris2, 3)
# check resultaat
iris.kmeans # 3 clusters met grootte 38,50 en 62
table(iris$Species, iris.kmeans$cluster)
# plot clusters and their centers
# resultaat laat zien dat cluster “setosa” eenvoudig te scheiden is van andere clusters,
# en dat clusters “versicolor” en “virginica” licht over overlappen
plot(iris2[c("Sepal.Length", "Sepal.Width")], col=iris.kmeans$cluster)
points(iris.kmeans$centers[, c("Sepal.Length", "Sepal.Width")],
col=1:3, pch="*", cex=5)
#hierarchische clustering
idx <- sample(1:dim(iris)[1], 40)
irisSample <- iris[idx,]
irisSample$Species <- NULL
hc <- hclust(dist(irisSample), method="ave")
plot(hc, hang = -1, labels=iris$Species[idx])
irisSample

Boeken
Aanraders
Technisch
• An introduction to statistical learning with R / James e.a.
Voor managers
• Data science for business / Provost e.a.
Over relatie met DWH
• Datamining concepts and techniques / Han e.a.
• Introduction to data sience / Coursera university
• Bayesiaanse statistiek in de rechtspraak / Jenneke IJzerman
• Neurale netwerken versus statistische methoden: een vergelijking / Huizingh e.a.
Alles gratis op het internet!!

Big data analytics johan quist

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

Similar to Big data analytics johan quist

Similar to Big data analytics johan quist (20)

Big data analytics johan quist

Editor's Notes