SlideShare a Scribd company logo
1 of 32
Big Data @ CBS
Overzicht van ervaringen
Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge,
Alex Priem and May Offermans
4 Februari 2014, Utrecht
Overzicht

• Big Data
• Onderzoekthema bij het CBS
• Verkennende studies
• Verkeerslusdata (NDW-data)
• Mobiele telefoon data
• Sociale media berichten

• Ervaringen en uitdagingen
• Methodologische & technische uitdagingen
• Nut van visualisaties
• Benodigde vaardigheden
2
– Data, data everywhere!
Twee typen data

Primaire data

Secundaire data

Data van ‘anderen’
Onze eigen enquêtes
4

- Administratieve bronnen
- Big Data
Verkennende Big Data studies

Veel
onontdekte
gebieden
Welke bronnen verkend?
Big Data bronnen die nauwgezet zijn onderzocht
1) Verkeerslusdata

~100 miljoen records / dag
(in totaal 9 miljard records)

2) Mobiele telefoon data ~36 miljoen records / dag
(in totaal 500 miljoen records)
3) Sociale media berichten ~3 miljoen records / dag
(in totaal > 3 miljard records)
6
Verkeerslussen
Verkeerslusdata
‐ Elke minuut (24/7) worden het aantal passerende
voertuigen geteld door ruim 20.000 ‘lussen’ in
Nederland
• Totaal en verschillende lengtecategorieën

‐ Mooie databron voor de Verkeer en Vervoer
statistieken van het CBS (en meer)
• Heel veel data, zo’n 100 miljoen records per dag
Locaties

7
Totaal aantal voertuigen per dag

Time (hour)

8
Aantal actieve lussen op die dag (eerste 10 min)

9
Correctie voor ontbrekende data
Per blok van 5 min.
Voor

Totaal ~ 295 miljoen getelde voertuigen

10

Na

Totaal ~ 330 miljoen voertuigen (+12%)
Alle voertuigen in September
In verschillende lengtecategorieën
1 categorie

3 categoriën

5 categoriën

Totaal

Totaal
<= 5.6m
> 5.6 & <= 12.2m
> 12.2m

Totaal
> 1.85 & <= 2.4m
> 2.4 & <= 5.6m
> 5.6 & <= 11.5m
> 11.5 & <= 12.2m
> 12.2m

Kleine voertuigen <= 5.6 m
Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m
Grote voertuigen > 12.2 m
12
Kleine voertuigen (<= 5.6 meter)

~75% v/h totaal
13
Kleine & ‘gemiddelde’ voertuigen

14
Klein, ‘gemiddelde’ & grote voertuigen

15
Grote voertuigen in September
Google Earth: voor locaties
Tellingen op microniveau
Alle voertuigen

Grote voertuigen

18

Alle voertuigen

Alle voertuigen
Containeroverslag bij Rotterdam

51.941,4.02836

19
2) Mobiele telefoondata
Gebruik mobiele telefoon als databron
– Vrijwel iedereen heeft een mobieltje
‐ Bij zich en bijna altijd aan!
‐ Steeds meer mensen hebben een ‘smart phone’
‐ Mobieltjes worden erg vaak gebruikt gedurende de dag

– Kun je mobiele telefoongegevens gebruiken voor de officiële
statistiek?
‐ Verplaatsingsgedrag (van mobieltjes)
‐ ‘Dag‐populatie’ (van mobieltjes)
‐ Toerisme (nieuw geregistreerde telefoons op het netwerk)

– Er is data van één mobiele telefoonmaatschappij gebruikt (!)
‐ Eerste test: geanonimiseerde microdata (periode van 14 dagen)
‐ Later: uuraggregaten per gebied
20
Verplaatsingsgedrag van mobiele telefoons
Verplaatsing van erg actieve ‘bellers’
- gedurende een 14-daagse periode

Gebaseerd op:
- Bel- en SMS-activiteit
- meerdere keren per dag
- Locatie gebaseerd op GSM-mast
waarmee telefoon verbonden is

Opvallend:
- Bevat de 5 grote steden
- Maar veel minder in het Noorden
en Zeeland

21
‘Dag populatie’
– Per gebied veranderingen
in gebruik mobieltjes
– 7 & 8 Mei 2013
– Geaggregeerd per gebied
– Alleen gegevens gebruikt
bij > 15 gebeurtenissen
per uur

22
Toerisme
Activiteit van Duitse mobieltjes aan de kust

Mobiel
Temp.

23
Social media
– Nederlanders zijn erg actief op sociale media
‐ Bijna altijd bij zich en staat vrijwel altijd aan

• Steeds meer mensen hebben een smartphone!

– Mogelijke informatiebron voor:
‐ Welke onderwerpen zijn actueel:

• Aantal berichten en sentiment hierover
‐ Als meetinstrument te gebruiken voor:

• .

24
Map by Eric Fischer (via Fast Company)
Sociale media berichten
– Nederlanders zijn erg actief op ‘Sociale media’
‐ Wat voor ‘informatie’ delen ze?
• Kunnen we hier iets mee?
• Het is erg snel beschikbaar!
‐> Welke onderwerpen worden besproken?
Inhoud:
‐ Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen
Sentiment
‐ Sentiment in NL‐talige berichten bekeken: ‘allemaal’ > 3 miljard

25
Relatie CBS-thema’s en Twitter

Thema's

Onderwerpen Twitter
Werk
Relaties
Wonen
Economie
Milieu
Weer
ICT
Gezondheid
Onderwijs
Politiek
Veiligheid
Vervoer
Vrije tijd
Vakantie
Cultuur/events
Sport
Media
Overige

(5%)

(3%)

(10%)

(7%)
(46%)
0

26

10

20

30

40

50

Bijdrage (%)

12 miljoen berichten
Sentiment in social media
– Toegang gekocht tot database van Coosto
‐ > 3 miljard publiekelijk beschikbare sociale mediaberichten
(uitsluitende NL‐talig)
• Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc.
‐ Ook bepaling sentiment van elk bericht
• Positief, negatief of neutraal
‐ Interessant resultaat
• Veranderingen in het (maandelijkse) sentiment
27
Consumer confidence, survey data
Sentiment analyse
Consumentenvertrouwen

~1000 respondenten/maand

28
Sentiment analysis
Consumentenvertrouwen &
Sociale media sentiment (maand)

Corr: 0.88
~30 miljoen berichten/maand

29
Ervaringen en uitdagingen
Ervaringen en uitdagingen
De volgende ‘leerpunten’ zijn geïdentificeerd bij
het werken met Big Data op het CBS.
1) Omgaan met en analyse van zeer grote
hoeveelheden data
2) Nut van visualisatiemethoden
3) Omgaan met ‘ruizige’ en ongestructureerde data
4) Omgaan met selectiviteit van de data (populatie)
5) Van correlatie naar oorzakelijkheid
6) Mensen nodig met de juiste vaardigheden
7) Bewust zijn van privacy en beveiligingsissues
We hebben nog niet alle opgelost (privacy wel hoor)
31
@pietdaas

De toekomst van de statistiek?

More Related Content

Similar to Big data @ CBS

ITI workshop open data
ITI workshop open dataITI workshop open data
ITI workshop open dataMarcel de Rink
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTDutch Power
 
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn  28 juli 2014 Open DataAlphen aan den rijn  28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open DataAd Steenbakkers
 
Opening up social media publiek Nederland
Opening up social media publiek NederlandOpening up social media publiek Nederland
Opening up social media publiek Nederlandsannetentije
 
20130115 presentatie 5 trends
20130115 presentatie 5 trends20130115 presentatie 5 trends
20130115 presentatie 5 trendsMirandaBrummel
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRJasmina Tepic MA
 
Social media conference - Sanne ten Tije
Social media conference - Sanne ten TijeSocial media conference - Sanne ten Tije
Social media conference - Sanne ten TijeOpening-up.eu
 
Leen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content drivenLeen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content drivenPLATOVlaanderen
 
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 -  Inclusief communiceren in tijden van digitalisering / Eric G...UiTforum 2016 -  Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...UiTnetwerk - CultuurNet Vlaanderen
 
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakelGEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakeledietvorst
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small dataNMITSymposium
 
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!Roy Johannink
 
Big data en officiële statistiek
Big data en officiële statistiekBig data en officiële statistiek
Big data en officiële statistiekPiet J.H. Daas
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekPiet J.H. Daas
 
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)ysprick
 
Apps voor lokale overheden
Apps voor lokale overhedenApps voor lokale overheden
Apps voor lokale overhedenRosseau Bart
 
Open Innovation & Social Media 2012
Open Innovation & Social Media 2012Open Innovation & Social Media 2012
Open Innovation & Social Media 2012Wim Andréa
 

Similar to Big data @ CBS (20)

ITI workshop open data
ITI workshop open dataITI workshop open data
ITI workshop open data
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
 
Alphen aan den rijn 28 juli 2014 Open Data
Alphen aan den rijn  28 juli 2014 Open DataAlphen aan den rijn  28 juli 2014 Open Data
Alphen aan den rijn 28 juli 2014 Open Data
 
Opening up social media publiek Nederland
Opening up social media publiek NederlandOpening up social media publiek Nederland
Opening up social media publiek Nederland
 
20130115 presentatie 5 trends
20130115 presentatie 5 trends20130115 presentatie 5 trends
20130115 presentatie 5 trends
 
Nim model
Nim modelNim model
Nim model
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
 
Social media conference - Sanne ten Tije
Social media conference - Sanne ten TijeSocial media conference - Sanne ten Tije
Social media conference - Sanne ten Tije
 
Leen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content drivenLeen Gysen - Het nieuwe sociale netwerk is content driven
Leen Gysen - Het nieuwe sociale netwerk is content driven
 
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 -  Inclusief communiceren in tijden van digitalisering / Eric G...UiTforum 2016 -  Inclusief communiceren in tijden van digitalisering / Eric G...
UiTforum 2016 - Inclusief communiceren in tijden van digitalisering / Eric G...
 
GEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakelGEO2.0 - Locatie als verbindende schakel
GEO2.0 - Locatie als verbindende schakel
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small data
 
Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!Omgevingsanalyse 3.0: laat de informatie tot je komen!
Omgevingsanalyse 3.0: laat de informatie tot je komen!
 
Opzet Media:Tijd
Opzet Media:TijdOpzet Media:Tijd
Opzet Media:Tijd
 
Big data en officiële statistiek
Big data en officiële statistiekBig data en officiële statistiek
Big data en officiële statistiek
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiek
 
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
Presentatie Veilige Stad werksessie, Interviews gemeenten (7 maart 2013)
 
Apps voor lokale overheden
Apps voor lokale overhedenApps voor lokale overheden
Apps voor lokale overheden
 
Open Innovation & Social Media 2012
Open Innovation & Social Media 2012Open Innovation & Social Media 2012
Open Innovation & Social Media 2012
 

More from Piet J.H. Daas

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their usePiet J.H. Daas
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsPiet J.H. Daas
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)Piet J.H. Daas
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesPiet J.H. Daas
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statisticsPiet J.H. Daas
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasPiet J.H. Daas
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsPiet J.H. Daas
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSPiet J.H. Daas
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45Piet J.H. Daas
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation MannheimPiet J.H. Daas
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media dataPiet J.H. Daas
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityPiet J.H. Daas
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyPiet J.H. Daas
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenPiet J.H. Daas
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaPiet J.H. Daas
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statisticsPiet J.H. Daas
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big DataPiet J.H. Daas
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidencePiet J.H. Daas
 
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of  Big Data for official statist...Opportunities and methodological challenges of  Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...Piet J.H. Daas
 

More from Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statistics
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation Mannheim
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media data
 
Big Data @ CBS
Big Data @ CBSBig Data @ CBS
Big Data @ CBS
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statistics
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big Data
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidence
 
Opportunities and methodological challenges of Big Data for official statist...
Opportunities and methodological challenges of  Big Data for official statist...Opportunities and methodological challenges of  Big Data for official statist...
Opportunities and methodological challenges of Big Data for official statist...
 

Big data @ CBS

  • 1. Big Data @ CBS Overzicht van ervaringen Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge, Alex Priem and May Offermans 4 Februari 2014, Utrecht
  • 2. Overzicht • Big Data • Onderzoekthema bij het CBS • Verkennende studies • Verkeerslusdata (NDW-data) • Mobiele telefoon data • Sociale media berichten • Ervaringen en uitdagingen • Methodologische & technische uitdagingen • Nut van visualisaties • Benodigde vaardigheden 2
  • 3. – Data, data everywhere!
  • 4. Twee typen data Primaire data Secundaire data Data van ‘anderen’ Onze eigen enquêtes 4 - Administratieve bronnen - Big Data
  • 5. Verkennende Big Data studies Veel onontdekte gebieden
  • 6. Welke bronnen verkend? Big Data bronnen die nauwgezet zijn onderzocht 1) Verkeerslusdata ~100 miljoen records / dag (in totaal 9 miljard records) 2) Mobiele telefoon data ~36 miljoen records / dag (in totaal 500 miljoen records) 3) Sociale media berichten ~3 miljoen records / dag (in totaal > 3 miljard records) 6
  • 7. Verkeerslussen Verkeerslusdata ‐ Elke minuut (24/7) worden het aantal passerende voertuigen geteld door ruim 20.000 ‘lussen’ in Nederland • Totaal en verschillende lengtecategorieën ‐ Mooie databron voor de Verkeer en Vervoer statistieken van het CBS (en meer) • Heel veel data, zo’n 100 miljoen records per dag Locaties 7
  • 8. Totaal aantal voertuigen per dag Time (hour) 8
  • 9. Aantal actieve lussen op die dag (eerste 10 min) 9
  • 10. Correctie voor ontbrekende data Per blok van 5 min. Voor Totaal ~ 295 miljoen getelde voertuigen 10 Na Totaal ~ 330 miljoen voertuigen (+12%)
  • 11. Alle voertuigen in September
  • 12. In verschillende lengtecategorieën 1 categorie 3 categoriën 5 categoriën Totaal Totaal <= 5.6m > 5.6 & <= 12.2m > 12.2m Totaal > 1.85 & <= 2.4m > 2.4 & <= 5.6m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 12
  • 13. Kleine voertuigen (<= 5.6 meter) ~75% v/h totaal 13
  • 14. Kleine & ‘gemiddelde’ voertuigen 14
  • 15. Klein, ‘gemiddelde’ & grote voertuigen 15
  • 16. Grote voertuigen in September
  • 17. Google Earth: voor locaties
  • 18. Tellingen op microniveau Alle voertuigen Grote voertuigen 18 Alle voertuigen Alle voertuigen
  • 20. 2) Mobiele telefoondata Gebruik mobiele telefoon als databron – Vrijwel iedereen heeft een mobieltje ‐ Bij zich en bijna altijd aan! ‐ Steeds meer mensen hebben een ‘smart phone’ ‐ Mobieltjes worden erg vaak gebruikt gedurende de dag – Kun je mobiele telefoongegevens gebruiken voor de officiële statistiek? ‐ Verplaatsingsgedrag (van mobieltjes) ‐ ‘Dag‐populatie’ (van mobieltjes) ‐ Toerisme (nieuw geregistreerde telefoons op het netwerk) – Er is data van één mobiele telefoonmaatschappij gebruikt (!) ‐ Eerste test: geanonimiseerde microdata (periode van 14 dagen) ‐ Later: uuraggregaten per gebied 20
  • 21. Verplaatsingsgedrag van mobiele telefoons Verplaatsing van erg actieve ‘bellers’ - gedurende een 14-daagse periode Gebaseerd op: - Bel- en SMS-activiteit - meerdere keren per dag - Locatie gebaseerd op GSM-mast waarmee telefoon verbonden is Opvallend: - Bevat de 5 grote steden - Maar veel minder in het Noorden en Zeeland 21
  • 22. ‘Dag populatie’ – Per gebied veranderingen in gebruik mobieltjes – 7 & 8 Mei 2013 – Geaggregeerd per gebied – Alleen gegevens gebruikt bij > 15 gebeurtenissen per uur 22
  • 23. Toerisme Activiteit van Duitse mobieltjes aan de kust Mobiel Temp. 23
  • 24. Social media – Nederlanders zijn erg actief op sociale media ‐ Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! – Mogelijke informatiebron voor: ‐ Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover ‐ Als meetinstrument te gebruiken voor: • . 24 Map by Eric Fischer (via Fast Company)
  • 25. Sociale media berichten – Nederlanders zijn erg actief op ‘Sociale media’ ‐ Wat voor ‘informatie’ delen ze? • Kunnen we hier iets mee? • Het is erg snel beschikbaar! ‐> Welke onderwerpen worden besproken? Inhoud: ‐ Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen Sentiment ‐ Sentiment in NL‐talige berichten bekeken: ‘allemaal’ > 3 miljard 25
  • 26. Relatie CBS-thema’s en Twitter Thema's Onderwerpen Twitter Werk Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs Politiek Veiligheid Vervoer Vrije tijd Vakantie Cultuur/events Sport Media Overige (5%) (3%) (10%) (7%) (46%) 0 26 10 20 30 40 50 Bijdrage (%) 12 miljoen berichten
  • 27. Sentiment in social media – Toegang gekocht tot database van Coosto ‐ > 3 miljard publiekelijk beschikbare sociale mediaberichten (uitsluitende NL‐talig) • Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc. ‐ Ook bepaling sentiment van elk bericht • Positief, negatief of neutraal ‐ Interessant resultaat • Veranderingen in het (maandelijkse) sentiment 27
  • 28. Consumer confidence, survey data Sentiment analyse Consumentenvertrouwen ~1000 respondenten/maand 28
  • 29. Sentiment analysis Consumentenvertrouwen & Sociale media sentiment (maand) Corr: 0.88 ~30 miljoen berichten/maand 29
  • 31. Ervaringen en uitdagingen De volgende ‘leerpunten’ zijn geïdentificeerd bij het werken met Big Data op het CBS. 1) Omgaan met en analyse van zeer grote hoeveelheden data 2) Nut van visualisatiemethoden 3) Omgaan met ‘ruizige’ en ongestructureerde data 4) Omgaan met selectiviteit van de data (populatie) 5) Van correlatie naar oorzakelijkheid 6) Mensen nodig met de juiste vaardigheden 7) Bewust zijn van privacy en beveiligingsissues We hebben nog niet alle opgelost (privacy wel hoor) 31
  • 32. @pietdaas De toekomst van de statistiek?