3. WITH THE CHARGING DATA AS CENTRAL DATASET, THE
DATABASE IS CONTINUOUSLY EXPANDED, EXTENDED AND
ENRICHED AND SCRAPED
Data Extension
Data enrichment Data Scraping
Data Expansion
OCPI
5. Het doel van dit college is dat je
• Een nieuwe dataset gestructureerd kunt exploreren
• Ggplot2 kunt inzetten voor data exploratie
• In timeseries enkele transformaties kunt maken om de
data te exploreren
7. Stel je voor je bent klaar…. Wat heb je dan????
Metadata
Legacy
OLTP
ERP
…
External
Datamart 1
ETL
Staging
Area
Business
Intelligence
Applications
(Q&R,
OLAP,
Visualization,
Data Mining)
Datamart 2
Datamart n
‘Production’ ‘Assembly & Logistics’ ‘Consumption’
‘closed loop’
EAI
EII ODS
ETL
Data Warehouse
10. Feitelijk zijn we in een
soort tussenfase
beland waar we wel
de schone en
uniforme data hebben
maar nog geen inzicht
in de data
11. Exploring data – wat is de 0e functie die je
uitvoert als je en dataset binnenkrijgt??
Hebben alle variabelen in de juiste class
12. Exploring data – wat is de 1e functie die je
uitvoert als je en dataset binnenkrijgt??
Waar kijk je naar?
• Per variabele
• NA’s
• Scheve verdeling /outliers / technische onmogelijkheden
13. Exploring data – wat is de 2e functie die je
uitvoert als je en dataset binnenkrijgt??
Pairs[data.frame[,kolommen]]
17. Wat kun je zoal vinden
Missing values
Invalid and outliers
Data range
Unit issues (1,000$ vs $)
18. Wat haal je uit de grafische data
What is the peak value of the distribution?
How many peaks are there in the distribution
(unimodality versus bimodality)?
How normal (or lognormal) is the data?
How much does the data vary? Is it concentrated
in a certain interval or in a certain category
19. Maak een schets in 1 figuur van …
TTV: Hoe zou je je data science project voortzetten als je data als custdata$age eruit zou zien?
20. Normale plots versus Log plots
Leg uit wat je van deze plot vindt en wat deze plot je vertelt
21. Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg 48), geef voorbeelden..
22. Normale plots versus Log plots
TTV: Beredeneer wanneer je een logplot wel/niet zou mogen gebruiken (boek pg
23. Opdracht (10 minuten)
Zoek een wiskundige uit waarvan je denkt dat hij/zij jou iets uit kan leggen
zodanig dat jij het ons uit kan leggen.
Wat is het verschil tussen een normale en een lognormale verdeling
Wat is skewness?
Wat is kurtosis?
32. Opdracht komende vrijdag
Exploreer één van de datasets op Kaggle.com/datasets
Presenteer iig het volgende
1. Schets de context van de data (wat is gemeten, wat is de data, gebruik
plaatjes/figuren/illustrateis) -> wij moeten het begrijpen
2. Download en ETL de data (leg uit wat je binnen ETL gedaan hebt)
3. Exploreer de data als geheel, per variabele, paarsgewijs en als totaal*
4. Leg uit wat je opvalt in de data en maak daar een uitleg bij in de context van de data
5. Welke kansen of onderzoeksvragen of praktijkvragen kun je met de data oplossen
6. Stel hypotheses over wat je verwacht als je een (voorspel) model zou maken
7. Reflectie slide(s) (1) welke problemen / onverwachtse dingen ben je
tegengekomen
(2) wat heb je geleerd
Zorg voor
• Backup slides van de code die je gebruikt hebt
• Backup slides van alle figuren die je niet als basis verhaal hebt maar wel als
ondersteuning
Tip:
Steel jat en ontleen aan Kaggle en Google, maar niet zonder dat je zelf kun uitleggen wat
de code doet!
* iig Summary / pairs / heatmap / ggplot /qgraph en vele andere….