Big Data en Open Data

BOSA.be
INTEC Brussel
2018-08-21
Bart Hanssens
FOD BOSA Digitale Transformatie
Big Data &
Open Data

• Data
• Enkele begrippen
• Big Data
• Wat is het + voorbeelden
• Open Data
• Wat is het + voorbeelden
• Vragen ?
Agenda
2

• (Elektronische) gegevens
• Foto’s, documenten, kaarten, meetgegevens …
• Gestructureerd of ongestructureerd
Wat is data ?
4

• Metadata is ook data
• Gegevens die iets meer vertellen over andere gegevens
• Vaak gebruikt om iets te zoeken
• Bijvoorbeeld:
• Data: een YouTube video
• Metadata: de titel, datum, naam van de artiest, …
Wat is metadata ?
5

• Data opslaan / opvragen kost wat:
• Tijd, geld, ruimte
• Data verzamelen is niet genoeg
• Bedoeling van data verzamelen is om er iets mee te doen
• Correct analyseren van data kan heel moeilijk zijn
• Beveiliging van data is belangrijk
• Zeker als er data over personen worden bewaard / verwerkt
Aandachtspunten (meta)data
6

Grootte Data (ongeveer)
Zettabyte ZB 15 ZB: alle data op het internet
Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld
Petabyte PB 4 PB: (per dag) data op Facebook
Terabyte TB 8 TB: grootste harde schijf voor thuis
Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek)
3 GB: (per uur) Netflix film in HD kwaliteit
1 GB: (per maand) limiet goedkoop GSM-abonnement
Megabyte MB 2 MB: PowerPoint presentatie
Kilobyte kB 3 KB: A4-pagina tekst
Byte B 280
Wat is veel data ?
8

Type Prijs per GB (ongeveer) Max. leessnelheid (ongeveer)
Harde schijf 0.03 EUR 250 MB/s
USB stick 0.2 EUR 150 MB/s
SSD m.2 0.3 EUR 3 500 MB/s
DDR4 RAM 10 EUR 25 600 MB/s
Vergelijking geheugen en opslag
9

Type Opmerking Max. snelheid (praktijk)
4G 5 MB/s
Wifi (n) 5 GHz 30 MB/s
Wifi (ac) 90 MB/s
Ethernet (Gigabit) 115 MB/s
Ethernet (10 GbE) 1 150 MB/s
MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s
Vergelijking downloadsnelheid
10

In teksten over Big Data wordt vaak gesproken over “V”’s:
• Volume: veel gegevens
• Velocity: snel te verwerken
• Variety: verschillende structuren en bronnen
Tegenwoordig worden er nog bijkomende“V”’s vermeld:
• Value: de waarde
• …
De “V”s van Big Data
11

• Produceren en opslaan van gegevens wordt goedkoper
• Steeds meer “persoonlijke” diensten gebaseerd op data
• Google: reclame gebaseerd op zoekopdrachten
• Netflix: suggesties voor films
• TomTom: snellere verkeersroutes op basis van file-informatie
• “Internet of Things”, “Smart City”, “Connected Cars”
• Steeds meer communicatie tussen machines onderling
Waarom steeds meer (big) data ?
12

• Overal sensoren, die (vaak) verbonden zijn:
• Smartphones met GPS, camera en bewegingssensor
• Meters luchtkwaliteit, straling, …
• Alarmsystemen, domotica
• Camera’s en detectoren in het verkeer
• (zelfrijdende) auto’s
• Sensoren in industriële machines
Internet of Things
13

• Online en sociale media
• Twitter, Facebook, Google, …
• Wetenschap
• Weer en klimaat, fysica, astronomie
• Banken en industrie
• Beurs, verzekeringen, chemie, gezondheidszorg
• Mobiliteit en transport
• Vlotter verkeer, zelfrijdende auto’s
• Sport
Toepassingen
14

• Voordelen en nadelen
• “Als het product gratis is, dan ben jij het product”
• Vaak de bedoeling om iets te verkopen op basis van
• Welke apps je gebruikt en wanneer
• Waar je je bevindt en met wie
• Welke pagina’s, videos … je bekijkt en deelt
• Welke dingen je al online gekocht hebt
• …
Voorbeeld: sociale media en online platformen
15

• Grote hoeveelheid foto’s en metingen
• Aarde: foto’s van gebouwen, temperatuur
• Ruimte: sterren, planeten
• USA: 25+ PB data, code en voorbeelden NASA
• https://open.nasa.gov/open-data
• België:
• Landbouw: groei van gewassen (https://watchitgrow.be)
• Terrascope platform (https://terrascope.be)
Voorbeeld: satellietgegevens
16

Voorbeeld: hoe groen is mijn gemeente ?
17

• Auto’s en vrachtwagens registreren situatie op de weg
• Putten, ijs, gladde wegen, …
• Informatie wordt gedeeld
• Waarschuwing naar auto’s in de buurt
• Melding naar beheerder van de weg (sneeuwruimers…)
• Vb: « BADA » project Volvo / Scania in Zweden
• http://www.nvfnorden.org/library/Files/Per-
Olof%20Svensk_BADA%207%20June%202017.pdf
Voorbeeld: verbeteren situatie autowegen
18

• Veel mensen hebben GSM/smartphones altijd bij de hand
• Staan in verbinding met antennes
• Operatoren kunnen analyses maken voor evenementen
• Via welke weg reizen de bezoekers
• Hoe lang blijven ze ter plaatse
• Vb: Proximus MyAnalytics
• https://www.proximusanalytics.be
• Geanonimiseerde rapporten (tegen betaling)
• Enkel data van Proximus (schatting voor andere operatoren)
Voorbeeld: bezoekers evenement op basis van GSM
19

Voorbeeld: huldiging Rode Duivels
20

• « Wordt het leven duurder in België ? »
• Aankopen zoals eten / drinken, maar ook brandstof, kleren
• Heeft indirect invloed op indexering (verhoging) huur
• O.a. gescande artikelen aan de kassa’s van supermarkten
• Vergelijking niet altijd even eenvoudig
• Seizoensproducten, zelfde product met andere code …
• https://statbel.fgov.be/nl/over-
statbel/methodologie/analyses
Voorbeeld: consumptieprijsindex Statbel
21

• Formule 1
• 100 – 300 sensoren per F1-auto
• Snelheid, bandenspanning, remmen, brandstof …
• Voetbal: FC Barcelona
• (big) data analytics
• Sportieve prestaties en gepersonaliseerde interactie fans
Voorbeeld: sport
22

• CERN “Large Hadron Collider” deeltjesversneller
• 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden
• https://home.cern/about/computing/processing-what-record
• NASA “Square Kilometre Array” telescoop
• Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden
• https://www.skatelescope.org
Voorbeeld: wetenschap
23

Analyseren en visualiseren van data
24

• Opslag van gegevens wordt steeds goedkoper
• Maar niet alles is even nuttig voor een bepaalde analyse
• Ook niet altijd duidelijk wat wel / geen invloed heeft
• Vaak gedaan om iets te voorspellen of te verbeteren
• Voorspellen weer, luchtkwaliteit, verkoop, …
• Detecteren van fraude
• Samenstellen van nieuwe materialen en geneesmiddelen
Analyseren van data
25

• Machines “trainen” om bepaalde patronen te herkennen
• Beelden: herkennen personen, verkeersborden, kankercellen
• Teksten en producten: automatisch indelen in categorieën
• Veel onderzoek naar ML door grote IT-bedrijven
• https://www.tensorflow.org (Google)
• http://www.paddlepaddle.org (Baidu)
• http://torch.ch (Facebook)
• https://www.ibm.com/watson (IBM)
Machine learning
26

• Bijvoorbeeld via “notebooks” of “dashboards”
• Online alternatief voor rapporten en documenten
• Vooral populair bij onderzoekers
• Kan ook zonder big data gebruikt worden
• Vaak geschreven in Python, “R” en/of Javascript
• http://shiny.rstudio.com
• http://jupyter.org
Visualisatie van gegevens
27

Wanneer Big Data / hoe onderdelen kiezen ?
29
• Big Data enkel zinvol voor grote hoeveelheden data
• Terabytes of meer
• Heel veel verschillende componenten
• Evolueren nog steeds erg snel
• Moeten niet allemaal gebruikt worden
• Geen systeem dat voor elke situatie perfect is
• Ingewikkelde zoekopdrachten of niet ?
• Gestructureerde data of niet ?
• Koppeling met andere systemen ?

Hadoop Big Data platform
31
• Niet het enige platform, maar wel heel populair
• Bestaat uit verschillende componenten
• HDFS, MapReduce, …
• Java open source: gratis op eigen servers te gebruiken
• Commercieel pakket: Cloudera, MapR, Hortonworks …
• Installatie op eigen machines of “in the cloud”
• Amazon, Google, Microsoft, Oracle, SAP …
• Let op: niet gratis, kosten om data in/uit systeem te halen …

Hadoop HDFS, vereenvoudigd
32
HDFS

Apache Hadoop HDFS
33
• Gedistribueerd file system
• (deel van) schijven op aparte systemen gedragen zich als 1
• Geoptimaliseerd voor grote “batch” leesoperaties
• Niet voor kleine “random” schrijfoperaties
• Kan gebruikt worden met heel veel “gewone” schijven
• Zelfs met duizenden machines, tienduizenden schijven
• Honderden petabytes
• Data wordt automatisch verdeeld en gekopieerd
• Detectie + snel herstellen van fouten (vb: kapotte schijf)

Waarom data verdelen over meerdere systemen ?
34
• Lezen / schrijven van data is niet oneindig snel
• Werk verdelen over verschillende machines
• Vermijden dat gebruikers te lang moeten wachten
• Herstellen van problemen makkelijker maken
• Machines en netwerken kunnen tijdelijk falen of kapot gaan

MapReduce
35
• Manier om taken parallel uit te voeren
• Vb: tellen van woorden, zoeken
• Voor heel grote hoeveelheden data
• (veel) meer dan in het geheugen past
• Bedoeld voor taken waar alle data 1 keer gelezen wordt
• Berekeningen verdelen
• Zo dicht mogelijk bij de data uitvoeren
• Vermijden dat data heen en weer wordt gestuurd
• Resultaten combineren

Apache HBase
36
• Database die bovenop HDFS kan draaien
• Voor zeer grote databases (miljarden rijen)
• Geen volledige vervanging van “klassieke” databases
• Geen ingewikkelde queries
• Niet veel structuur
• Postgresql, Oracle… hebben ook andere mogelijkheden

Enkele andere componenten
37
• Apache Cassandra
• Ook een database
• “altijd beschikbaar” belangrijker dan “altijd dezelfde data”
• Apache Hive
• SQL-achtige taal bovenop Hadoop
• Makkelijker maken om Hadoop te gebruiken

Vereenvoudigd overzicht
38
HDFS
HBase
Map
Reduce
API
API
Hive

• Apache open source
• https://projects.apache.org/projects.html?category#big-data
• http://hadoop.apache.org
• http://spark.apache.org
• Big Data Community:
• http://bigdata.be
• Jaarlijks Data Science evenement:
• https://datasciencebe.com
Enkele big data / data science linken
39

Apache Spark kenmerken
41
• Kan bovenop HDFS kan draaien of apart
• Alternatief voor MapReduce
• Spark kan verwerkingen in geheugen uitvoeren
• Veel sneller voor kleinere hoeveelheden data
• Geschikter om meerdere keren door zelfde data te lopen

• Data zonder gevoelige / persoonlijke informatie
• Wel: statistieken,
• Niet: medisch dossier
• In een makkelijk te verwerken formaat
• Vb: tabellen in MS-Excel, CSV, XML …
• Door iedereen gratis te hergebruiken
• Ook voor commerciële doeleinden
Wat is Open Data ?
43

Open
Data
Big
Data
Open Data en Big Data
44

• Big data is niet altijd open data
• Vb: veel big data in bedrijven is niet publiek, of niet gratis
• Open data is niet altijd big data
• Vb: lijst van scholen in Brussel is kort
Open Data en Big Data (2)
45

• Meestal overheidsdiensten
• Steden, Gewesten, federale overheid …
• Worden via belastingen betaald door de burgers en bedrijven
• Verplichtingen opgelegd door Europese Unie
• Soms ook bedrijven
• Vb: bedrijven die fietsen of auto’s verhuren
• Vaak ook personen / vrijwilligers
• Vb: WikiPedia, OpenStreetMap, …
Wie publiceert open data ?
46

• Vooral steden publiceren adresinformatie
• Pleinen, zwembaden, …
• Kaartgegevens
• Gemeentegrenzen, 3D-kaart Vlaanderen, …
• Heel veel statistieken
• Bevolking per gemeente, gemiddelde prijzen, …
Over welke soort data gaat het ?
47

• Combineren met andere data
• Artikels schrijven
• Vb: gemiddelde prijs huis/appartement per gemeente
• Websites bouwen
• Vb: https://ici.brussels/nl
• Apps bouwen
• Vb: “Top Baby Names”: populaire voornamen
Wat kan je er mee doen ?
48

Voorbeeld: website Limburg in Cijfers
49

• Verschillende formaten worden door elkaar gebruikt
• CSV, MS-Excel, XML, JSON…
• Mogelijk ook verschillende informatie per streek
• Soms is bronvermelding verplicht, soms niet
• Vaak ook geen garantie op beschikbaarheid / updates
• Geen contract
Aandachtspunten open data
50

• Open data portaal:
• https://data.gov.be
• Jaarlijks open data evenement:
• http://www.openbelgium.be
• OpenKnowledge community:
• https://www.openknowledge.be
Enkele open data linken
51

BOSA.be
@BartHanssens
bart.hanssens@bosa.fgov.be
opendata@belgium.be
Bedankt !

Big Data en Open Data

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (11)

Similaire à Big Data en Open Data

Similaire à Big Data en Open Data (20)

Plus de Bart Hanssens

Plus de Bart Hanssens (20)

Big Data en Open Data