SlideShare une entreprise Scribd logo
1  sur  24
Statistiek en Big Data:
De kracht van
datavisualisaties

 Piet Daas, Martijn Tennekes, Edwin de Jonge,
 Alex Priem en Merijn van Pelt

 Centraal Bureau voor de Statistiek

                                 Big Data Symposium, 27 September Nyenrode
Centraal Bureau voor de Statistiek
• Taak: “het publiceren van betrouwbare en
  samenhangende statistische informatie, die
  inspeelt op de behoefte van de samenleving”.
  • in 2012 zo’n kleine 5000 officiële publicaties & tabellen

• Doel: maximale vermindering van administratieve
  lasten
  • Door bestaande administratieve bestanden te
    hergebruiken.
  • Kijken naar de nieuwe bronnen van informatie: Big Data!

 Big Data Symposium 27 Sept. Nyenrode                           1
CBS en gegevens
Flinke verandering in gebruik beschikbare informatie voor
statistiekproductie:
   1. Enquêtegegevens (steeds minder)
            Per enquête tot max. 100.000 records per jaar

   2. Administratieve bronnen (steeds meer)
            Per bron tot 20 miljoen records per maand

   3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)
            Per bron zo’n ~80 miljoen records per dag


  Big Data Symposium 27 Sept. Nyenrode                       2
CBS en gegevens (2)

• Er is steeds meer en steeds vaker data beschikbaar:
   • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’
     • Steeds grotere hoeveelheden data moeten snel
       gecontroleerd, verwerkt en geanalyseerd worden
     • Meer aandacht voor selectiviteit en datatransformatie
     • Meer mogelijkheden voor snelle cijfers (‘real-time
       statistics’)
   • Behoefte aan nieuwe methoden en tools
     • Statistische methoden geschikt voor grote datasets
     • Denk aan: visualisatie methoden en data-, tekst- en
       stream-mining technieken

   Big Data Symposium 27 Sept. Nyenrode                      3
Nieuwe ontwikkelingen

•    Voorbeelden uit de praktijk
    1) Visualisatie-methoden om snel inzicht te krijgen
        in grote hoeveelheden gegevens
        a. Virtuele Volkstelling       (17 miljoen records)
        b. Polisadministratie          (20 miljoen records)

    2) Bevindingen van onderzoek gebruik Big Data
        bronnen
        c. Verkeerslusgegevens         (80 miljoen records)
        d. Mobiele telefonie           (~500 miljoen records)
        e. Sociale media               (12 milj. - 1 miljard records)


Big Data Symposium 27 Sept. Nyenrode                                    4
Voorbeeld a. Virtuele Volkstelling

    • Volkstelling is verplicht, eens in 10-jaar
    • In Nederland niet meer met vragenlijsten
         • Laatste traditionele volkstelling in 1971
    • Nu door (her)gebruik van reeds verzamelde
      informatie
         • Grootschalig koppelen van administratieve bronnen en
           enquêtegegevens
         • Controleren en bijschatten
         • Hoe controleren?
             • Met een visualisatiemethode: Tableplot


Big Data Symposium 27 Sept. Nyenrode                              5
Uitleg maken Tableplot
1.        Bestand laden                             17 miljoen records
2.        Records sorteren op waarde                17 miljoen records
          van sleutelvariabele
      •          in dit geval leeftijd
3.        Samenvoegen records                       100 groepen (elk 170.000 records)
      •          Numerieke variabelen
             •      Bereken gemiddelde (gem. leeftijd)
      •          Categoriale variabelen
             •      Verhouding aanwezige categorieën (man vs vrouw)
4.        Plaatje ‘plotten’                         van geselecteerd aantal variabelen
             •      Kleurgebruik belangrijk



     Big Data Symposium 27 Sept. Nyenrode                                          6
Big Data Symposium 27 Sept. Nyenrode   Een tableplot van het testbestand
Voorbeeld b: Polisadministratie

• Bestand met de financiële gegevens van
  alle banen, uitkeringen en pensioenen in
  Nederland
    • Verzameld door Belastingdienst en UWV
    • Elke maand 20 miljoen records

    • Hoe krijgen we inzicht in deze enorme bak
      data?
         • Met een visualisatie: heat map



Big Data Symposium 27 Sept. Nyenrode              8
Heatmap: Leeftijd, ‘Inkomen’




Big Data Symposium 27 Sept. Nyenrode   9
In 3D heatmap: Leeftijd, Inkomen, Aantal
                                                        Na ‘in
                                                               dikken
                                                                      ’




          l eef
                  tijd
                                         l eef
                                                 tijd




  Big Data Symposium 27 Sept. Nyenrode                                10
Voorbeeld c: Verkeerslusgegevens

• Verkeerslussen
    • Elke minuut (24/7) wordt het aantal
      passerende voertuigen op ~10.000
      meetpunten in Nederland geteld
         • Totaal en in verschillende lengtecategorieën


    • Mooie bron om verkeer- en vervoerstatistieken
      mee te maken
         • Veel data, zo’n 80 miljoen records per dag



Big Data Symposium 27 Sept. Nyenrode                      11
Aantal gedetecteerde voertuigen op één dag in NL




                                         Alle locaties




  Big Data Symposium 27 Sept. Nyenrode               12
Registratie activiteit verkeerslussen (eerste 10 min)




 Big Data Symposium 27 Sept. Nyenrode              13
Aantal gedetecteerde voertuigen op één dag in NL




                                                              Alle locaties




                                         Totaal = ~ 295 miljoen

  Big Data Symposium 27 Sept. Nyenrode                                    14
Grote voertuigen vs alle voertuigen


                                          Wagens > 5.6 m
                                          (vrachtwagens)
                                          Alle voertuigen




                                       Na normaliseren

Big Data Symposium 27 Sept. Nyenrode                  15
Op niveau van de afzonderlijke lussen




Big Data Symposium 27 Sept. Nyenrode    16
Voorbeeld d: Mobiele telefoon
• Vrijwel elke Nederlander heeft een ‘mobieltje’
     • Bijna altijd bij zich en staat vrijwel altijd aan
         • Steeds meer mensen hebben een smartphone!

• Ideale informatiebron om:
     • Met behulp van registraties van providers:
         • Verplaatsingsgedrag (‘Dag’-populatie)
         • Toerisme (nieuwe aanmeldingen op netwerk)
         • Mensenmassa’s (bijv. bij evenementen)
     • Als meetinstrument te gebruiken voor:
         •   Vragenlijsten (via App, SMS of browser)
         •   Maken van foto’s van producten, kassabonnen en streepjescodes
         •   Doorgeven exacte locatie (GPS)
         •   Etc.


Big Data Symposium 27 Sept. Nyenrode                                         17
Verplaatsingsgedrag mobiele telefoons
                                       Verplaatsingen van zeer
                                       actieve mobiele gebruikers
                                          - gedurende 14 dagen
                                          - van één provider

                                       Gebaseerd op:
                                          - Bel- en SMS-activiteit
                                              meer dan 1x / dag
                                          - Locatie telefoonmasten

                                       Duidelijk selectief:
                                          - Wel de grote steden
                                          - Nauwelijks ‘t noorden
                                            en Zeeland


Big Data Symposium 27 Sept. Nyenrode                                 18
Voorbeeld e: Sociale media

• Nederlanders zijn erg actief op sociale media
    • Bijna altijd bij zich en staat vrijwel altijd aan
         • Steeds meer mensen hebben een smartphone!

• Mogelijke informatiebron voor:
    • Welke onderwerpen zijn actueel:
         • Aantal berichten en sentiment hierover


    • Als meetinstrument te gebruiken voor:
         • .
                                                    Map by Eric Fischer (via Fast Company)



Big Data Symposium 27 Sept. Nyenrode                                                         19
Sociale media: Nederlandstalige berichten
   • Nederlanders zijn erg actief op sociale media
     • Mogelijke informatiebron:
            • Aantal berichten over en sentiment t.a.v. bepaalde
              onderwerpen (snel beschikbaar!)
            • Testen om het nut te controleren




Database met meer dan een miljard openbare Nederlandstalige berichten

  Big Data Symposium 27 Sept. Nyenrode                             20
Sociale media: Twitter onderwerpen
                                                 Onderwerpen Twitter

                     Werk            (5%)
                 Relaties
                   Wonen
               Economie
                    Milieu
                     Weer
                       ICT
             Gezondheid
               Onderwijs           (3%)
                   Politiek
                Veiligheid
Thema's




                  Vervoer
                  Vrije tijd                 (10%)
                 Vakantie
           Cultuur/events
                     Sport
                                          (7%)
                    Media
                  Overige                                                            (46%)

                               0           10        20          30    40       50

                                                      Bijdrage (%)          12 miljoen berichten

          Big Data Symposium 27 Sept. Nyenrode                                               21
Afsluitend: Statistiek en ‘Big Data’
   • Geschikt maken voor statistisch gebruik is veel werk
      • Vooronderzoek nodig, kost veel tijd
      • Informatiereductie nodig (‘indikken’; ‘small’ data)
      • Risico: ‘garbage in’   ‘garbage statistics out’
   • Traditionele aanpak schiet te kort
      • Het zijn geen steekproefgegevens meer
      • Betreft vaak een selectief maar groot deel van de populatie
      • Soms te veel data (overdekking & teveel detail)
      • Bij standaard analyses wordt alles significant!
   • Meer behoefte aan:
      • Visualisatiemethoden (om snel inzicht te krijgen)
      • Snelle methoden en niet-lineaire schatters
      • ‘Computational statistics’ (& snelle hardware)
      • Privacy-eisen worden hoger!


  Big Data Symposium 27 Sept. Nyenrode                                22
Big Data Symposium 27 Sept. Nyenrode   De toekomst van het CBS?

Contenu connexe

Similaire à Statistiek en Big Data: de kracht van visualizaties

Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres EindhovenAppsForGhent
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenVNG Realisatie
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTDutch Power
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieherbold
 
Big (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityBig (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityErik Van Der Zee
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRJasmina Tepic MA
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentRosseau Bart
 
Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012StijnAdams
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalRosseau Bart
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small dataNMITSymposium
 
Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daasPiet J.H. Daas
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) IntoTheMinds
 
Noël Van Herreweghe - Overheid in beweging
Noël Van Herreweghe - Overheid in bewegingNoël Van Herreweghe - Overheid in beweging
Noël Van Herreweghe - Overheid in bewegingIndigoXperience
 
a.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIASa.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIASrobineffing
 
ITI workshop open data
ITI workshop open dataITI workshop open data
ITI workshop open dataMarcel de Rink
 

Similaire à Statistiek en Big Data: de kracht van visualizaties (20)

Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)Peter Dedecker over Open Data in Brugge (17-11-11)
Peter Dedecker over Open Data in Brugge (17-11-11)
 
gent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhovengent en open data - Open Data Congres Eindhoven
gent en open data - Open Data Congres Eindhoven
 
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojectenMeetup 20092018 - Eindhoven Smart Society en sensorprojecten
Meetup 20092018 - Eindhoven Smart Society en sensorprojecten
 
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICTJohn Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
John Post - Hoe wordt onze energietoekomst beïnvloed door Big Data en ICT
 
Doorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatieDoorbraakproject open geodata, grondstof voor groei en innovatie
Doorbraakproject open geodata, grondstof voor groei en innovatie
 
Big (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City InteroperabilityBig (sensor) Data and Smart City Interoperability
Big (sensor) Data and Smart City Interoperability
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
 
Studiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagentStudiedag informatiemgmnt opendatagent
Studiedag informatiemgmnt opendatagent
 
Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012Tussentijdse presentatie - 21/11/2012
Tussentijdse presentatie - 21/11/2012
 
Open Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie LeiedalOpen Data in Gent - case voor Open Data Academie Leiedal
Open Data in Gent - case voor Open Data Academie Leiedal
 
6 norman manley geen big data zonder small data
6 norman manley   geen big data zonder small data6 norman manley   geen big data zonder small data
6 norman manley geen big data zonder small data
 
Big data cbs_piet_daas
Big data cbs_piet_daasBig data cbs_piet_daas
Big data cbs_piet_daas
 
Open data in Gent
Open data in  GentOpen data in  Gent
Open data in Gent
 
Opendata kviv
Opendata kvivOpendata kviv
Opendata kviv
 
Open Data
Open Data Open Data
Open Data
 
Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora) Presentatie big data (Dag van de verkoper, Cevora)
Presentatie big data (Dag van de verkoper, Cevora)
 
Noël Van Herreweghe - Overheid in beweging
Noël Van Herreweghe - Overheid in bewegingNoël Van Herreweghe - Overheid in beweging
Noël Van Herreweghe - Overheid in beweging
 
a.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIASa.s.r. masterclass digital and social media by TIAS
a.s.r. masterclass digital and social media by TIAS
 
ITI workshop open data
ITI workshop open dataITI workshop open data
ITI workshop open data
 

Plus de Piet J.H. Daas

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their usePiet J.H. Daas
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsPiet J.H. Daas
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)Piet J.H. Daas
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesPiet J.H. Daas
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statisticsPiet J.H. Daas
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasPiet J.H. Daas
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsPiet J.H. Daas
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSPiet J.H. Daas
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45Piet J.H. Daas
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation MannheimPiet J.H. Daas
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media dataPiet J.H. Daas
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekPiet J.H. Daas
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityPiet J.H. Daas
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyPiet J.H. Daas
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenPiet J.H. Daas
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaPiet J.H. Daas
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statisticsPiet J.H. Daas
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big DataPiet J.H. Daas
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidencePiet J.H. Daas
 

Plus de Piet J.H. Daas (20)

Big Data and official statistics with examples of their use
Big Data and official statistics with examples of their useBig Data and official statistics with examples of their use
Big Data and official statistics with examples of their use
 
IT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics NetherlandsIT infrastructure for Big Data and Data Science at Statistics Netherlands
IT infrastructure for Big Data and Data Science at Statistics Netherlands
 
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)ESSnet Big Data WP8 Methodology (+ Quality, +IT)
ESSnet Big Data WP8 Methodology (+ Quality, +IT)
 
EMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniquesEMOS 2018 Big Data methods and techniques
EMOS 2018 Big Data methods and techniques
 
Use of social media for official statistics
Use of social media for official statisticsUse of social media for official statistics
Use of social media for official statistics
 
Isi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and biasIsi 2017 presentation on Big Data and bias
Isi 2017 presentation on Big Data and bias
 
Responsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics NetherlandsResponsible Data Science at Statistics Netherlands
Responsible Data Science at Statistics Netherlands
 
CBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONSCBS lecture at the opening of Data Science Campus of ONS
CBS lecture at the opening of Data Science Campus of ONS
 
Ntts2017 presentation 45
Ntts2017 presentation 45Ntts2017 presentation 45
Ntts2017 presentation 45
 
Big Data presentation Mannheim
Big Data presentation MannheimBig Data presentation Mannheim
Big Data presentation Mannheim
 
Extracting information from ' messy' social media data
Extracting information from ' messy' social media dataExtracting information from ' messy' social media data
Extracting information from ' messy' social media data
 
Gebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiekGebruik van sociale media voor de officiële statistiek
Gebruik van sociale media voor de officiële statistiek
 
Big Data @ CBS
Big Data @ CBSBig Data @ CBS
Big Data @ CBS
 
Profiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivityProfiling Big Data sources to assess their selectivity
Profiling Big Data sources to assess their selectivity
 
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data MethodologyUsing Road Sensor Data for Official Statistics: towards a Big Data Methodology
Using Road Sensor Data for Official Statistics: towards a Big Data Methodology
 
Big Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in EindhovenBig Data @ CBS for Fontys students in Eindhoven
Big Data @ CBS for Fontys students in Eindhoven
 
Big Data presentation for Statistics Canada
Big Data presentation for Statistics CanadaBig Data presentation for Statistics Canada
Big Data presentation for Statistics Canada
 
Quality challenges in modernising business statistics
Quality challenges in modernising business statisticsQuality challenges in modernising business statistics
Quality challenges in modernising business statistics
 
Quality Approaches to Big Data
Quality Approaches to Big DataQuality Approaches to Big Data
Quality Approaches to Big Data
 
Social media sentiment and consumer confidence
Social media sentiment and consumer confidenceSocial media sentiment and consumer confidence
Social media sentiment and consumer confidence
 

Statistiek en Big Data: de kracht van visualizaties

  • 1. Statistiek en Big Data: De kracht van datavisualisaties Piet Daas, Martijn Tennekes, Edwin de Jonge, Alex Priem en Merijn van Pelt Centraal Bureau voor de Statistiek Big Data Symposium, 27 September Nyenrode
  • 2. Centraal Bureau voor de Statistiek • Taak: “het publiceren van betrouwbare en samenhangende statistische informatie, die inspeelt op de behoefte van de samenleving”. • in 2012 zo’n kleine 5000 officiële publicaties & tabellen • Doel: maximale vermindering van administratieve lasten • Door bestaande administratieve bestanden te hergebruiken. • Kijken naar de nieuwe bronnen van informatie: Big Data! Big Data Symposium 27 Sept. Nyenrode 1
  • 3. CBS en gegevens Flinke verandering in gebruik beschikbare informatie voor statistiekproductie: 1. Enquêtegegevens (steeds minder)  Per enquête tot max. 100.000 records per jaar 2. Administratieve bronnen (steeds meer)  Per bron tot 20 miljoen records per maand 3. Ook steeds meer ‘nieuwe’ bronnen (Big Data)  Per bron zo’n ~80 miljoen records per dag Big Data Symposium 27 Sept. Nyenrode 2
  • 4. CBS en gegevens (2) • Er is steeds meer en steeds vaker data beschikbaar: • Van ‘Data schaarste’ (steekproef-) naar ‘Data overdaad’ • Steeds grotere hoeveelheden data moeten snel gecontroleerd, verwerkt en geanalyseerd worden • Meer aandacht voor selectiviteit en datatransformatie • Meer mogelijkheden voor snelle cijfers (‘real-time statistics’) • Behoefte aan nieuwe methoden en tools • Statistische methoden geschikt voor grote datasets • Denk aan: visualisatie methoden en data-, tekst- en stream-mining technieken Big Data Symposium 27 Sept. Nyenrode 3
  • 5. Nieuwe ontwikkelingen • Voorbeelden uit de praktijk 1) Visualisatie-methoden om snel inzicht te krijgen in grote hoeveelheden gegevens a. Virtuele Volkstelling (17 miljoen records) b. Polisadministratie (20 miljoen records) 2) Bevindingen van onderzoek gebruik Big Data bronnen c. Verkeerslusgegevens (80 miljoen records) d. Mobiele telefonie (~500 miljoen records) e. Sociale media (12 milj. - 1 miljard records) Big Data Symposium 27 Sept. Nyenrode 4
  • 6. Voorbeeld a. Virtuele Volkstelling • Volkstelling is verplicht, eens in 10-jaar • In Nederland niet meer met vragenlijsten • Laatste traditionele volkstelling in 1971 • Nu door (her)gebruik van reeds verzamelde informatie • Grootschalig koppelen van administratieve bronnen en enquêtegegevens • Controleren en bijschatten • Hoe controleren? • Met een visualisatiemethode: Tableplot Big Data Symposium 27 Sept. Nyenrode 5
  • 7. Uitleg maken Tableplot 1. Bestand laden 17 miljoen records 2. Records sorteren op waarde 17 miljoen records van sleutelvariabele • in dit geval leeftijd 3. Samenvoegen records 100 groepen (elk 170.000 records) • Numerieke variabelen • Bereken gemiddelde (gem. leeftijd) • Categoriale variabelen • Verhouding aanwezige categorieën (man vs vrouw) 4. Plaatje ‘plotten’ van geselecteerd aantal variabelen • Kleurgebruik belangrijk Big Data Symposium 27 Sept. Nyenrode 6
  • 8. Big Data Symposium 27 Sept. Nyenrode Een tableplot van het testbestand
  • 9. Voorbeeld b: Polisadministratie • Bestand met de financiële gegevens van alle banen, uitkeringen en pensioenen in Nederland • Verzameld door Belastingdienst en UWV • Elke maand 20 miljoen records • Hoe krijgen we inzicht in deze enorme bak data? • Met een visualisatie: heat map Big Data Symposium 27 Sept. Nyenrode 8
  • 10. Heatmap: Leeftijd, ‘Inkomen’ Big Data Symposium 27 Sept. Nyenrode 9
  • 11. In 3D heatmap: Leeftijd, Inkomen, Aantal Na ‘in dikken ’ l eef tijd l eef tijd Big Data Symposium 27 Sept. Nyenrode 10
  • 12. Voorbeeld c: Verkeerslusgegevens • Verkeerslussen • Elke minuut (24/7) wordt het aantal passerende voertuigen op ~10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën • Mooie bron om verkeer- en vervoerstatistieken mee te maken • Veel data, zo’n 80 miljoen records per dag Big Data Symposium 27 Sept. Nyenrode 11
  • 13. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Big Data Symposium 27 Sept. Nyenrode 12
  • 14. Registratie activiteit verkeerslussen (eerste 10 min) Big Data Symposium 27 Sept. Nyenrode 13
  • 15. Aantal gedetecteerde voertuigen op één dag in NL Alle locaties Totaal = ~ 295 miljoen Big Data Symposium 27 Sept. Nyenrode 14
  • 16. Grote voertuigen vs alle voertuigen Wagens > 5.6 m (vrachtwagens) Alle voertuigen Na normaliseren Big Data Symposium 27 Sept. Nyenrode 15
  • 17. Op niveau van de afzonderlijke lussen Big Data Symposium 27 Sept. Nyenrode 16
  • 18. Voorbeeld d: Mobiele telefoon • Vrijwel elke Nederlander heeft een ‘mobieltje’ • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! • Ideale informatiebron om: • Met behulp van registraties van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen) • Als meetinstrument te gebruiken voor: • Vragenlijsten (via App, SMS of browser) • Maken van foto’s van producten, kassabonnen en streepjescodes • Doorgeven exacte locatie (GPS) • Etc. Big Data Symposium 27 Sept. Nyenrode 17
  • 19. Verplaatsingsgedrag mobiele telefoons Verplaatsingen van zeer actieve mobiele gebruikers - gedurende 14 dagen - van één provider Gebaseerd op: - Bel- en SMS-activiteit meer dan 1x / dag - Locatie telefoonmasten Duidelijk selectief: - Wel de grote steden - Nauwelijks ‘t noorden en Zeeland Big Data Symposium 27 Sept. Nyenrode 18
  • 20. Voorbeeld e: Sociale media • Nederlanders zijn erg actief op sociale media • Bijna altijd bij zich en staat vrijwel altijd aan • Steeds meer mensen hebben een smartphone! • Mogelijke informatiebron voor: • Welke onderwerpen zijn actueel: • Aantal berichten en sentiment hierover • Als meetinstrument te gebruiken voor: • . Map by Eric Fischer (via Fast Company) Big Data Symposium 27 Sept. Nyenrode 19
  • 21. Sociale media: Nederlandstalige berichten • Nederlanders zijn erg actief op sociale media • Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om het nut te controleren Database met meer dan een miljard openbare Nederlandstalige berichten Big Data Symposium 27 Sept. Nyenrode 20
  • 22. Sociale media: Twitter onderwerpen Onderwerpen Twitter Werk (5%) Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs (3%) Politiek Veiligheid Thema's Vervoer Vrije tijd (10%) Vakantie Cultuur/events Sport (7%) Media Overige (46%) 0 10 20 30 40 50 Bijdrage (%) 12 miljoen berichten Big Data Symposium 27 Sept. Nyenrode 21
  • 23. Afsluitend: Statistiek en ‘Big Data’ • Geschikt maken voor statistisch gebruik is veel werk • Vooronderzoek nodig, kost veel tijd • Informatiereductie nodig (‘indikken’; ‘small’ data) • Risico: ‘garbage in’ ‘garbage statistics out’ • Traditionele aanpak schiet te kort • Het zijn geen steekproefgegevens meer • Betreft vaak een selectief maar groot deel van de populatie • Soms te veel data (overdekking & teveel detail) • Bij standaard analyses wordt alles significant! • Meer behoefte aan: • Visualisatiemethoden (om snel inzicht te krijgen) • Snelle methoden en niet-lineaire schatters • ‘Computational statistics’ (& snelle hardware) • Privacy-eisen worden hoger! Big Data Symposium 27 Sept. Nyenrode 22
  • 24. Big Data Symposium 27 Sept. Nyenrode De toekomst van het CBS?