Statistiek en Big Data: de kracht van visualizaties

Statistiek en Big Data:
De kracht van
datavisualisaties

Piet Daas, Martijn Tennekes, Edwin de Jonge,
Alex Priem en Merijn van Pelt

Centraal Bureau voor de Statistiek

Big Data Symposium, 27 September Nyenrode

Centraal Bureau voor de Statistiek
• Taak: “het publiceren van betrouwbare en
samenhangende statistische informatie, die
inspeelt op de behoefte van de samenleving”.
• in 2012 zo’n kleine 5000 officiële publicaties & tabellen

• Doel: maximale vermindering van administratieve
lasten
• Door bestaande administratieve bestanden te
hergebruiken.
• Kijken naar de nieuwe bronnen van informatie: Big Data!

Big Data Symposium 27 Sept. Nyenrode 1

CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
1. Enquêtegegevens (steeds minder)
 Per enquête tot max. 100.000 records per jaar

2. Administratieve bronnen (steeds meer)
 Per bron tot 20 miljoen records per maand

3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)
 Per bron zo’n ~80 miljoen records per dag


CBS en gegevens (2)

• Er is steeds meer en steeds vaker data beschikbaar:
• Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
• Steeds grotere hoeveelheden data moeten snel
gecontroleerd, verwerkt en geanalyseerd worden
• Meer aandacht voor selectiviteit en datatransformatie
• Meer mogelijkheden voor snelle cijfers (‘real-time
statistics’)
• Behoefte aan nieuwe methoden en tools
• Statistische methoden geschikt voor grote datasets
• Denk aan: visualisatie methoden en data-, tekst- en
stream-mining technieken


Nieuwe ontwikkelingen

• Voorbeelden uit de praktijk
1) Visualisatie-methoden om snel inzicht te krijgen
in grote hoeveelheden gegevens
a. Virtuele Volkstelling (17 miljoen records)
b. Polisadministratie (20 miljoen records)

2) Bevindingen van onderzoek gebruik Big Data
bronnen
c. Verkeerslusgegevens (80 miljoen records)
d. Mobiele telefonie (~500 miljoen records)
e. Sociale media (12 milj. - 1 miljard records)


Voorbeeld a. Virtuele Volkstelling

• Volkstelling is verplicht, eens in 10-jaar
• In Nederland niet meer met vragenlijsten
• Laatste traditionele volkstelling in 1971
• Nu door (her)gebruik van reeds verzamelde
informatie
• Grootschalig koppelen van administratieve bronnen en
enquêtegegevens
• Controleren en bijschatten
• Hoe controleren?
• Met een visualisatiemethode: Tableplot


Uitleg maken Tableplot
1. Bestand laden 17 miljoen records
2. Records sorteren op waarde 17 miljoen records
van sleutelvariabele
• in dit geval leeftijd
3. Samenvoegen records 100 groepen (elk 170.000 records)
• Numerieke variabelen
• Bereken gemiddelde (gem. leeftijd)
• Categoriale variabelen
• Verhouding aanwezige categorieën (man vs vrouw)
4. Plaatje ‘plotten’ van geselecteerd aantal variabelen
• Kleurgebruik belangrijk


Big Data Symposium 27 Sept. Nyenrode Een tableplot van het testbestand

Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens van
alle banen, uitkeringen en pensioenen in
Nederland
• Verzameld door Belastingdienst en UWV
• Elke maand 20 miljoen records

• Hoe krijgen we inzicht in deze enorme bak
data?
• Met een visualisatie: heat map


Heatmap: Leeftijd, ‘Inkomen’


In 3D heatmap: Leeftijd, Inkomen, Aantal
Na ‘in
dikken
’

l eef
tijd
l eef
tijd


Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen
• Elke minuut (24/7) wordt het aantal
passerende voertuigen op ~10.000
meetpunten in Nederland geteld
• Totaal en in verschillende lengtecategorieën

• Mooie bron om verkeer- en vervoerstatistieken
mee te maken
• Veel data, zo’n 80 miljoen records per dag


Aantal gedetecteerde voertuigen op één dag in NL

Alle locaties


Registratie activiteit verkeerslussen (eerste 10 min)


Aantal gedetecteerde voertuigen op één dag in NL

Alle locaties

Totaal = ~ 295 miljoen


Grote voertuigen vs alle voertuigen

Wagens > 5.6 m
(vrachtwagens)
Alle voertuigen

Na normaliseren


Op niveau van de afzonderlijke lussen


Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:
• Met behulp van registraties van providers:
• Verplaatsingsgedrag (‘Dag’-populatie)
• Toerisme (nieuwe aanmeldingen op netwerk)
• Mensenmassa’s (bijv. bij evenementen)
• Als meetinstrument te gebruiken voor:
• Vragenlijsten (via App, SMS of browser)
• Maken van foto’s van producten, kassabonnen en streepjescodes
• Doorgeven exacte locatie (GPS)
• Etc.


Verplaatsingsgedrag mobiele telefoons
Verplaatsingen van zeer
actieve mobiele gebruikers
- gedurende 14 dagen
- van één provider

Gebaseerd op:
- Bel- en SMS-activiteit
meer dan 1x / dag
- Locatie telefoonmasten

Duidelijk selectief:
- Wel de grote steden
- Nauwelijks ‘t noorden
en Zeeland


Voorbeeld e: Sociale media

• Nederlanders zijn erg actief op sociale media
• Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!

• Mogelijke informatiebron voor:
• Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover

• Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)


Sociale media: Nederlandstalige berichten
• Nederlanders zijn erg actief op sociale media
• Mogelijke informatiebron:
• Aantal berichten over en sentiment t.a.v. bepaalde
onderwerpen (snel beschikbaar!)
• Testen om het nut te controleren

Database met meer dan een miljard openbare Nederlandstalige berichten


Sociale media: Twitter onderwerpen
Onderwerpen Twitter

Werk (5%)
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Onderwijs (3%)
Politiek
Veiligheid
Thema's

Vervoer
Vrije tijd (10%)
Vakantie
Cultuur/events
Sport
(7%)
Media
Overige (46%)

0 10 20 30 40 50

Bijdrage (%) 12 miljoen berichten


Afsluitend: Statistiek en ‘Big Data’
• Geschikt maken voor statistisch gebruik is veel werk
• Vooronderzoek nodig, kost veel tijd
• Informatiereductie nodig (‘indikken’; ‘small’ data)
• Risico: ‘garbage in’ ‘garbage statistics out’
• Traditionele aanpak schiet te kort
• Het zijn geen steekproefgegevens meer
• Betreft vaak een selectief maar groot deel van de populatie
• Soms te veel data (overdekking & teveel detail)
• Bij standaard analyses wordt alles significant!
• Meer behoefte aan:
• Visualisatiemethoden (om snel inzicht te krijgen)
• Snelle methoden en niet-lineaire schatters
• ‘Computational statistics’ (& snelle hardware)
• Privacy-eisen worden hoger!


Big Data Symposium 27 Sept. Nyenrode De toekomst van het CBS?

Statistiek en Big Data: de kracht van visualizaties

Recommandé

Recommandé

Contenu connexe

Similaire à Statistiek en Big Data: de kracht van visualizaties

Similaire à Statistiek en Big Data: de kracht van visualizaties (20)

Plus de Piet J.H. Daas

Plus de Piet J.H. Daas (20)

Statistiek en Big Data: de kracht van visualizaties