SlideShare une entreprise Scribd logo
1  sur  34
College 4 – Exploring
Data
https://play.google.com/store/apps/details?id=com.ionicframework.evspotter711839
Verzoek aan de groep – gebruik de EV
spotter APP
WITH THE CHARGING DATA AS CENTRAL DATASET, THE
DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND
ENRICHED AND SCRAPED
Data Extension
Data enrichment Data Scraping
Data Expansion
OCPI
Hoofdstukken
Kortom: Wat is er blijven hangen van het vorige college?
Het doel van dit college is dat je
• Een nieuwe dataset gestructureerd kunt exploreren
• Ggplot2 kunt inzetten voor data exploratie
• In timeseries enkele transformaties kunt maken om de
data te exploreren
Exploring data volgens Pr Dt Sc
Time serie changes
Opdracht komende week
Stel je voor je bent klaar…. Wat heb je dan????
Metadata
Legacy
OLTP
ERP
…
External
Datamart 1
ETL
Staging
Area
Business
Intelligence
Applications
(Q&R,
OLAP,
Visualization,
Data Mining)
Datamart 2
Datamart n
‘Production’ ‘Assembly & Logistics’ ‘Consumption’
‘closed loop’
EAI
EII ODS
ETL
Data Warehouse
SCREENSHOT RSTUDIO MET VEEL
DATASETS
Juist ja.. Een Rstudio vol met dataframes
Hfst3 exploring data
Feitelijk zijn we in een
soort tussenfase
beland waar we wel
de schone en
uniforme data hebben
maar nog geen inzicht
in de data
Exploring data – wat is de 0e functie die je
uitvoert als je en dataset binnenkrijgt??
Hebben alle variabelen in de juiste class
Exploring data – wat is de 1e functie die je
uitvoert als je en dataset binnenkrijgt??
Waar kijk je naar?
• Per variabele
• NA’s
• Scheve verdeling /outliers / technische onmogelijkheden
Exploring data – wat is de 2e functie die je
uitvoert als je en dataset binnenkrijgt??
Pairs[data.frame[,kolommen]]
Opdracht – analyseer deze dataset
Exploring data – voorbeeld uit het boek
Exploring data – voorbeeld uit het boek
Wat kun je zoal vinden
Missing values
Invalid and outliers
Data range
Unit issues (1,000$ vs $)
Wat haal je uit de grafische data
What is the peak value of the distribution?
How many peaks are there in the distribution
(unimodality versus bimodality)?
How normal (or lognormal) is the data?
How much does the data vary? Is it concentrated
in a certain interval or in a certain category
Maak een schets in 1 figuur van …
TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?
Normale plots versus Log plots
Leg uit wat je van deze plot vindt en wat deze plot je vertelt
Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..
Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg
Opdracht (10 minuten)
Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen
zodanig dat jij het ons uit kan leggen.
Wat is het verschil tussen een normale en een lognormale verdeling
Wat is skewness?
Wat is kurtosis?
2 dimensionele grafieken tonen je het volgende
De stacked bar laat verschillen zien tussen twee groepen op
basis van een 2e variabele
Facetting toont groepen van variabelen nast elkaar
http://sachaepskamp.com/files/CCStalkEpskamp.pdf
Correlation networks met qgraph
library(radarchart)
library(tidyr)
radarDF <- top20 %>% select(player_name,
10:42) %>% as.data.frame()
radarDF <- gather(radarDF, key=Label,
value=Score, -player_name) %>%
spread(key=player_name, value=Score)
chartJSRadar(scores = radarDF, maxScale = 100,
showToolTipLabel = TRUE)
www.kaggle.com/datasets
TransferMatrix <-
na.omit(TransferDf) %>%
ungroup() %>%
group_by(FormerLeague,
CurrentLeague) %>%
summarise(sub = n()) %>%
ungroup() %>% na.omit() %>%
mutate_each(funs(factor),
FormerLeague:CurrentLeague)
%>% acast(FormerLeague ~
CurrentLeague, value.var =
"sub")
Hoeveel feitelijke variabelen hebben we eigenlijk?
Opdracht komende vrijdag
Exploreer één van de datasets op Kaggle.com/datasets
Presenteer iig het volgende
1. Schets de context van de data (wat is gemeten, wat is de data, gebruik
plaatjes/figuren/illustrateis) -> wij moeten het begrijpen
2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt)
3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal*
4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data
5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen
6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken
7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je
tegengekomen
(2) wat heb je geleerd
Zorg voor
• Backup slides van de code die je gebruikt hebt
• Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als
ondersteuning
Tip:
Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat
de code doet!
* iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….
Typische Tentamenvragen
• geef enkele voorbeelden (inclusief R code) voor het exploreren
van data

Contenu connexe

En vedette

Creativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interactionCreativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interactionJurjen Helmus
 
promotie big data in urban technology
promotie big data in urban technologypromotie big data in urban technology
promotie big data in urban technologyJurjen Helmus
 
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurskansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde IngenieursJurjen Helmus
 
Lecture roadmapping product service combinations
Lecture roadmapping product service combinationsLecture roadmapping product service combinations
Lecture roadmapping product service combinationsJurjen Helmus
 
Debian Policy - 5.6.12 Version
Debian Policy - 5.6.12 VersionDebian Policy - 5.6.12 Version
Debian Policy - 5.6.12 VersionShih-Yuan Lee
 
Soft values of harbours
Soft values of harboursSoft values of harbours
Soft values of harboursJurjen Helmus
 
Software Engineering College 5 -managing data
Software Engineering College 5 -managing dataSoftware Engineering College 5 -managing data
Software Engineering College 5 -managing dataJurjen Helmus
 
Software for big data - setting the scene
Software for big data -   setting the sceneSoftware for big data -   setting the scene
Software for big data - setting the sceneJurjen Helmus
 
Software Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries dataSoftware Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries dataJurjen Helmus
 
Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013Jurjen Helmus
 
Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie Jurjen Helmus
 
Roadmapping Product Service Combinations
Roadmapping Product Service CombinationsRoadmapping Product Service Combinations
Roadmapping Product Service CombinationsJurjen Helmus
 

En vedette (13)

Creativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interactionCreativiteit en Krantbeleving: Design for interaction
Creativiteit en Krantbeleving: Design for interaction
 
Cleantech
CleantechCleantech
Cleantech
 
promotie big data in urban technology
promotie big data in urban technologypromotie big data in urban technology
promotie big data in urban technology
 
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurskansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
kansen van Internet of things voor Technisch Bedrijfskunde Ingenieurs
 
Lecture roadmapping product service combinations
Lecture roadmapping product service combinationsLecture roadmapping product service combinations
Lecture roadmapping product service combinations
 
Debian Policy - 5.6.12 Version
Debian Policy - 5.6.12 VersionDebian Policy - 5.6.12 Version
Debian Policy - 5.6.12 Version
 
Soft values of harbours
Soft values of harboursSoft values of harbours
Soft values of harbours
 
Software Engineering College 5 -managing data
Software Engineering College 5 -managing dataSoftware Engineering College 5 -managing data
Software Engineering College 5 -managing data
 
Software for big data - setting the scene
Software for big data -   setting the sceneSoftware for big data -   setting the scene
Software for big data - setting the scene
 
Software Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries dataSoftware Engineering College 6 -timeseries data
Software Engineering College 6 -timeseries data
 
Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013Denkpatronen open innovatie en keten innovatie - 2012-2013
Denkpatronen open innovatie en keten innovatie - 2012-2013
 
Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie Scenario analyse en planning voor innovatie
Scenario analyse en planning voor innovatie
 
Roadmapping Product Service Combinations
Roadmapping Product Service CombinationsRoadmapping Product Service Combinations
Roadmapping Product Service Combinations
 

Similaire à Software Engineering College 4 - exploring data

Software Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databasesSoftware Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databasesJurjen Helmus
 
Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen) Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen) Arjen de Vries
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDirk Roorda
 
Patroon herkenning in Time-Series. Bachelor scriptie
Patroon herkenning in Time-Series. Bachelor scriptiePatroon herkenning in Time-Series. Bachelor scriptie
Patroon herkenning in Time-Series. Bachelor scriptiePouria Jafari
 
Willem de Kooning - dataviz - week 2
Willem de Kooning - dataviz -  week 2Willem de Kooning - dataviz -  week 2
Willem de Kooning - dataviz - week 2Alper Çugun
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestvoginip
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenJulia Lebedeva
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenMirabeau
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Jeroen Rombouts
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...Ikinnoveer
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip
 
Vogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_HuysmansVogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_Huysmansvoginip
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenChristophe Debruyne
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
 
Learning analytics architecturen 1
Learning analytics architecturen 1Learning analytics architecturen 1
Learning analytics architecturen 1SURF Events
 
Presentatie Knowledge Graphs
Presentatie Knowledge Graphs Presentatie Knowledge Graphs
Presentatie Knowledge Graphs EloseSioen
 

Similaire à Software Engineering College 4 - exploring data (20)

Software Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databasesSoftware Engineering College 2 - ETL and databases
Software Engineering College 2 - ETL and databases
 
Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen) Masterclass Big Data (leerlingen)
Masterclass Big Data (leerlingen)
 
Datamanagement for Research: A Case Study
Datamanagement for Research: A Case StudyDatamanagement for Research: A Case Study
Datamanagement for Research: A Case Study
 
Patroon herkenning in Time-Series. Bachelor scriptie
Patroon herkenning in Time-Series. Bachelor scriptiePatroon herkenning in Time-Series. Bachelor scriptie
Patroon herkenning in Time-Series. Bachelor scriptie
 
Willem de Kooning - dataviz - week 2
Willem de Kooning - dataviz -  week 2Willem de Kooning - dataviz -  week 2
Willem de Kooning - dataviz - week 2
 
Semantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstestSemantische zoekmachines voor wetenschap: een stresstest
Semantische zoekmachines voor wetenschap: een stresstest
 
Computationeel denken
Computationeel denkenComputationeel denken
Computationeel denken
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerken
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerken
 
Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06Themamiddag ukb wg rdm introductie jr v06
Themamiddag ukb wg rdm introductie jr v06
 
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
IA Innovatieve marketingcommunicatie. Sessie 6. Werk met BIG DATA voor wijze ...
 
Gegevensbanken 2010 les14
Gegevensbanken 2010 les14Gegevensbanken 2010 les14
Gegevensbanken 2010 les14
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
 
Genereren Van Mapings
Genereren Van MapingsGenereren Van Mapings
Genereren Van Mapings
 
Vogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_HuysmansVogin-IP-lezing-Frank_Huysmans
Vogin-IP-lezing-Frank_Huysmans
 
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspuntenKnowledge Graphs: Concept, mogelijkheden en aandachtspunten
Knowledge Graphs: Concept, mogelijkheden en aandachtspunten
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
Learning analytics architecturen 1
Learning analytics architecturen 1Learning analytics architecturen 1
Learning analytics architecturen 1
 
Presentatie Knowledge Graphs
Presentatie Knowledge Graphs Presentatie Knowledge Graphs
Presentatie Knowledge Graphs
 
ArchitectureDevil
ArchitectureDevilArchitectureDevil
ArchitectureDevil
 

Plus de Jurjen Helmus

innoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmusinnoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmusJurjen Helmus
 
Roadmapping product service combinations
Roadmapping product service combinationsRoadmapping product service combinations
Roadmapping product service combinationsJurjen Helmus
 
Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Jurjen Helmus
 
Workshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiekWorkshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiekJurjen Helmus
 
Value chain innovation - Breaking the chains
Value chain innovation - Breaking the chainsValue chain innovation - Breaking the chains
Value chain innovation - Breaking the chainsJurjen Helmus
 
Microles lateraal denken
Microles lateraal denkenMicroles lateraal denken
Microles lateraal denkenJurjen Helmus
 
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...Jurjen Helmus
 
Marktinschatting en forecasting
Marktinschatting en forecastingMarktinschatting en forecasting
Marktinschatting en forecastingJurjen Helmus
 
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van AmsterdamDuurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van AmsterdamJurjen Helmus
 
Weekprogramma Engineeringweek
Weekprogramma EngineeringweekWeekprogramma Engineeringweek
Weekprogramma EngineeringweekJurjen Helmus
 

Plus de Jurjen Helmus (11)

innoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmusinnoveren_met_big_data_jr_helmus
innoveren_met_big_data_jr_helmus
 
Roadmapping product service combinations
Roadmapping product service combinationsRoadmapping product service combinations
Roadmapping product service combinations
 
Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap Opdracht 1 Het big data landschap
Opdracht 1 Het big data landschap
 
Workshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiekWorkshop webcollege - cursus didactiek
Workshop webcollege - cursus didactiek
 
Value chain innovation - Breaking the chains
Value chain innovation - Breaking the chainsValue chain innovation - Breaking the chains
Value chain innovation - Breaking the chains
 
Microles lateraal denken
Microles lateraal denkenMicroles lateraal denken
Microles lateraal denken
 
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
Product launch - de integratie tussen Marketing / Productie (opschaling) / in...
 
Marktinschatting en forecasting
Marktinschatting en forecastingMarktinschatting en forecasting
Marktinschatting en forecasting
 
4.2 voorlichting
4.2 voorlichting4.2 voorlichting
4.2 voorlichting
 
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van AmsterdamDuurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
Duurzaam Ontwerpen - Inge Oskam - Hogeschool van Amsterdam
 
Weekprogramma Engineeringweek
Weekprogramma EngineeringweekWeekprogramma Engineeringweek
Weekprogramma Engineeringweek
 

Software Engineering College 4 - exploring data

  • 1. College 4 – Exploring Data
  • 3. WITH THE CHARGING DATA AS CENTRAL DATASET, THE DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND ENRICHED AND SCRAPED Data Extension Data enrichment Data Scraping Data Expansion OCPI
  • 4. Hoofdstukken Kortom: Wat is er blijven hangen van het vorige college?
  • 5. Het doel van dit college is dat je • Een nieuwe dataset gestructureerd kunt exploreren • Ggplot2 kunt inzetten voor data exploratie • In timeseries enkele transformaties kunt maken om de data te exploreren
  • 6. Exploring data volgens Pr Dt Sc Time serie changes Opdracht komende week
  • 7. Stel je voor je bent klaar…. Wat heb je dan???? Metadata Legacy OLTP ERP … External Datamart 1 ETL Staging Area Business Intelligence Applications (Q&R, OLAP, Visualization, Data Mining) Datamart 2 Datamart n ‘Production’ ‘Assembly & Logistics’ ‘Consumption’ ‘closed loop’ EAI EII ODS ETL Data Warehouse
  • 8. SCREENSHOT RSTUDIO MET VEEL DATASETS Juist ja.. Een Rstudio vol met dataframes
  • 10. Feitelijk zijn we in een soort tussenfase beland waar we wel de schone en uniforme data hebben maar nog geen inzicht in de data
  • 11. Exploring data – wat is de 0e functie die je uitvoert als je en dataset binnenkrijgt?? Hebben alle variabelen in de juiste class
  • 12. Exploring data – wat is de 1e functie die je uitvoert als je en dataset binnenkrijgt?? Waar kijk je naar? • Per variabele • NA’s • Scheve verdeling /outliers / technische onmogelijkheden
  • 13. Exploring data – wat is de 2e functie die je uitvoert als je en dataset binnenkrijgt?? Pairs[data.frame[,kolommen]]
  • 14. Opdracht – analyseer deze dataset
  • 15. Exploring data – voorbeeld uit het boek
  • 16. Exploring data – voorbeeld uit het boek
  • 17. Wat kun je zoal vinden Missing values Invalid and outliers Data range Unit issues (1,000$ vs $)
  • 18. Wat haal je uit de grafische data What is the peak value of the distribution? How many peaks are there in the distribution (unimodality versus bimodality)? How normal (or lognormal) is the data? How much does the data vary? Is it concentrated in a certain interval or in a certain category
  • 19. Maak een schets in 1 figuur van … TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?
  • 20. Normale plots versus Log plots Leg uit wat je van deze plot vindt en wat deze plot je vertelt
  • 21. Normale plots versus Log plots TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..
  • 22. Normale plots versus Log plots TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg
  • 23. Opdracht (10 minuten) Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen zodanig dat jij het ons uit kan leggen. Wat is het verschil tussen een normale en een lognormale verdeling Wat is skewness? Wat is kurtosis?
  • 24. 2 dimensionele grafieken tonen je het volgende
  • 25. De stacked bar laat verschillen zien tussen twee groepen op basis van een 2e variabele
  • 26. Facetting toont groepen van variabelen nast elkaar
  • 28. library(radarchart) library(tidyr) radarDF <- top20 %>% select(player_name, 10:42) %>% as.data.frame() radarDF <- gather(radarDF, key=Label, value=Score, -player_name) %>% spread(key=player_name, value=Score) chartJSRadar(scores = radarDF, maxScale = 100, showToolTipLabel = TRUE)
  • 29. www.kaggle.com/datasets TransferMatrix <- na.omit(TransferDf) %>% ungroup() %>% group_by(FormerLeague, CurrentLeague) %>% summarise(sub = n()) %>% ungroup() %>% na.omit() %>% mutate_each(funs(factor), FormerLeague:CurrentLeague) %>% acast(FormerLeague ~ CurrentLeague, value.var = "sub")
  • 30. Hoeveel feitelijke variabelen hebben we eigenlijk?
  • 31.
  • 32. Opdracht komende vrijdag Exploreer één van de datasets op Kaggle.com/datasets Presenteer iig het volgende 1. Schets de context van de data (wat is gemeten, wat is de data, gebruik plaatjes/figuren/illustrateis) -> wij moeten het begrijpen 2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt) 3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal* 4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data 5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen 6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken 7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je tegengekomen (2) wat heb je geleerd Zorg voor • Backup slides van de code die je gebruikt hebt • Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als ondersteuning Tip: Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat de code doet! * iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….
  • 33.
  • 34. Typische Tentamenvragen • geef enkele voorbeelden (inclusief R code) voor het exploreren van data