Opportunities and methodological challenges of Big Data for official statist...
Big data @ CBS
1. Big Data @ CBS
Overzicht van ervaringen
Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge,
Alex Priem and May Offermans
4 Februari 2014, Utrecht
2. Overzicht
• Big Data
• Onderzoekthema bij het CBS
• Verkennende studies
• Verkeerslusdata (NDW-data)
• Mobiele telefoon data
• Sociale media berichten
• Ervaringen en uitdagingen
• Methodologische & technische uitdagingen
• Nut van visualisaties
• Benodigde vaardigheden
2
6. Welke bronnen verkend?
Big Data bronnen die nauwgezet zijn onderzocht
1) Verkeerslusdata
~100 miljoen records / dag
(in totaal 9 miljard records)
2) Mobiele telefoon data ~36 miljoen records / dag
(in totaal 500 miljoen records)
3) Sociale media berichten ~3 miljoen records / dag
(in totaal > 3 miljard records)
6
7. Verkeerslussen
Verkeerslusdata
‐ Elke minuut (24/7) worden het aantal passerende
voertuigen geteld door ruim 20.000 ‘lussen’ in
Nederland
• Totaal en verschillende lengtecategorieën
‐ Mooie databron voor de Verkeer en Vervoer
statistieken van het CBS (en meer)
• Heel veel data, zo’n 100 miljoen records per dag
Locaties
7
20. 2) Mobiele telefoondata
Gebruik mobiele telefoon als databron
– Vrijwel iedereen heeft een mobieltje
‐ Bij zich en bijna altijd aan!
‐ Steeds meer mensen hebben een ‘smart phone’
‐ Mobieltjes worden erg vaak gebruikt gedurende de dag
– Kun je mobiele telefoongegevens gebruiken voor de officiële
statistiek?
‐ Verplaatsingsgedrag (van mobieltjes)
‐ ‘Dag‐populatie’ (van mobieltjes)
‐ Toerisme (nieuw geregistreerde telefoons op het netwerk)
– Er is data van één mobiele telefoonmaatschappij gebruikt (!)
‐ Eerste test: geanonimiseerde microdata (periode van 14 dagen)
‐ Later: uuraggregaten per gebied
20
21. Verplaatsingsgedrag van mobiele telefoons
Verplaatsing van erg actieve ‘bellers’
- gedurende een 14-daagse periode
Gebaseerd op:
- Bel- en SMS-activiteit
- meerdere keren per dag
- Locatie gebaseerd op GSM-mast
waarmee telefoon verbonden is
Opvallend:
- Bevat de 5 grote steden
- Maar veel minder in het Noorden
en Zeeland
21
22. ‘Dag populatie’
– Per gebied veranderingen
in gebruik mobieltjes
– 7 & 8 Mei 2013
– Geaggregeerd per gebied
– Alleen gegevens gebruikt
bij > 15 gebeurtenissen
per uur
22
24. Social media
– Nederlanders zijn erg actief op sociale media
‐ Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
– Mogelijke informatiebron voor:
‐ Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover
‐ Als meetinstrument te gebruiken voor:
• .
24
Map by Eric Fischer (via Fast Company)
25. Sociale media berichten
– Nederlanders zijn erg actief op ‘Sociale media’
‐ Wat voor ‘informatie’ delen ze?
• Kunnen we hier iets mee?
• Het is erg snel beschikbaar!
‐> Welke onderwerpen worden besproken?
Inhoud:
‐ Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen
Sentiment
‐ Sentiment in NL‐talige berichten bekeken: ‘allemaal’ > 3 miljard
25
26. Relatie CBS-thema’s en Twitter
Thema's
Onderwerpen Twitter
Werk
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Onderwijs
Politiek
Veiligheid
Vervoer
Vrije tijd
Vakantie
Cultuur/events
Sport
Media
Overige
(5%)
(3%)
(10%)
(7%)
(46%)
0
26
10
20
30
40
50
Bijdrage (%)
12 miljoen berichten
27. Sentiment in social media
– Toegang gekocht tot database van Coosto
‐ > 3 miljard publiekelijk beschikbare sociale mediaberichten
(uitsluitende NL‐talig)
• Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc.
‐ Ook bepaling sentiment van elk bericht
• Positief, negatief of neutraal
‐ Interessant resultaat
• Veranderingen in het (maandelijkse) sentiment
27
31. Ervaringen en uitdagingen
De volgende ‘leerpunten’ zijn geïdentificeerd bij
het werken met Big Data op het CBS.
1) Omgaan met en analyse van zeer grote
hoeveelheden data
2) Nut van visualisatiemethoden
3) Omgaan met ‘ruizige’ en ongestructureerde data
4) Omgaan met selectiviteit van de data (populatie)
5) Van correlatie naar oorzakelijkheid
6) Mensen nodig met de juiste vaardigheden
7) Bewust zijn van privacy en beveiligingsissues
We hebben nog niet alle opgelost (privacy wel hoor)
31