Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

Big Data en Open Data

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Prochain SlideShare
Open Data
Open Data
Chargement dans…3
×

Consultez-les par la suite

1 sur 53 Publicité

Plus De Contenu Connexe

Diaporamas pour vous (11)

Similaire à Big Data en Open Data (20)

Publicité

Plus par Bart Hanssens (20)

Plus récents (20)

Publicité

Big Data en Open Data

  1. 1. BOSA.be INTEC Brussel 2018-08-21 Bart Hanssens FOD BOSA Digitale Transformatie Big Data & Open Data
  2. 2. • Data • Enkele begrippen • Big Data • Wat is het + voorbeelden • Open Data • Wat is het + voorbeelden • Vragen ? Agenda 2
  3. 3. Data 3
  4. 4. • (Elektronische) gegevens • Foto’s, documenten, kaarten, meetgegevens … • Gestructureerd of ongestructureerd Wat is data ? 4
  5. 5. • Metadata is ook data • Gegevens die iets meer vertellen over andere gegevens • Vaak gebruikt om iets te zoeken • Bijvoorbeeld: • Data: een YouTube video • Metadata: de titel, datum, naam van de artiest, … Wat is metadata ? 5
  6. 6. • Data opslaan / opvragen kost wat: • Tijd, geld, ruimte • Data verzamelen is niet genoeg • Bedoeling van data verzamelen is om er iets mee te doen • Correct analyseren van data kan heel moeilijk zijn • Beveiliging van data is belangrijk • Zeker als er data over personen worden bewaard / verwerkt Aandachtspunten (meta)data 6
  7. 7. Big Data 7
  8. 8. Grootte Data (ongeveer) Zettabyte ZB 15 ZB: alle data op het internet Exabyte EB 2 EB: (per dag) nieuwe data over hele wereld Petabyte PB 4 PB: (per dag) data op Facebook Terabyte TB 8 TB: grootste harde schijf voor thuis Gigabyte GB 60 GB: Wikipedia in het Engels (zonder historiek) 3 GB: (per uur) Netflix film in HD kwaliteit 1 GB: (per maand) limiet goedkoop GSM-abonnement Megabyte MB 2 MB: PowerPoint presentatie Kilobyte kB 3 KB: A4-pagina tekst Byte B 280 Wat is veel data ? 8
  9. 9. Type Prijs per GB (ongeveer) Max. leessnelheid (ongeveer) Harde schijf 0.03 EUR 250 MB/s USB stick 0.2 EUR 150 MB/s SSD m.2 0.3 EUR 3 500 MB/s DDR4 RAM 10 EUR 25 600 MB/s Vergelijking geheugen en opslag 9
  10. 10. Type Opmerking Max. snelheid (praktijk) 4G 5 MB/s Wifi (n) 5 GHz 30 MB/s Wifi (ac) 90 MB/s Ethernet (Gigabit) 115 MB/s Ethernet (10 GbE) 1 150 MB/s MAREA Netwerkkabel Oost-USA - Spanje 20 000 000 MB/s Vergelijking downloadsnelheid 10
  11. 11. In teksten over Big Data wordt vaak gesproken over “V”’s: • Volume: veel gegevens • Velocity: snel te verwerken • Variety: verschillende structuren en bronnen Tegenwoordig worden er nog bijkomende“V”’s vermeld: • Value: de waarde • … De “V”s van Big Data 11
  12. 12. • Produceren en opslaan van gegevens wordt goedkoper • Steeds meer “persoonlijke” diensten gebaseerd op data • Google: reclame gebaseerd op zoekopdrachten • Netflix: suggesties voor films • TomTom: snellere verkeersroutes op basis van file-informatie • “Internet of Things”, “Smart City”, “Connected Cars” • Steeds meer communicatie tussen machines onderling Waarom steeds meer (big) data ? 12
  13. 13. • Overal sensoren, die (vaak) verbonden zijn: • Smartphones met GPS, camera en bewegingssensor • Meters luchtkwaliteit, straling, … • Alarmsystemen, domotica • Camera’s en detectoren in het verkeer • (zelfrijdende) auto’s • Sensoren in industriële machines Internet of Things 13
  14. 14. • Online en sociale media • Twitter, Facebook, Google, … • Wetenschap • Weer en klimaat, fysica, astronomie • Banken en industrie • Beurs, verzekeringen, chemie, gezondheidszorg • Mobiliteit en transport • Vlotter verkeer, zelfrijdende auto’s • Sport Toepassingen 14
  15. 15. • Voordelen en nadelen • “Als het product gratis is, dan ben jij het product” • Vaak de bedoeling om iets te verkopen op basis van • Welke apps je gebruikt en wanneer • Waar je je bevindt en met wie • Welke pagina’s, videos … je bekijkt en deelt • Welke dingen je al online gekocht hebt • … Voorbeeld: sociale media en online platformen 15
  16. 16. • Grote hoeveelheid foto’s en metingen • Aarde: foto’s van gebouwen, temperatuur • Ruimte: sterren, planeten • USA: 25+ PB data, code en voorbeelden NASA • https://open.nasa.gov/open-data • België: • Landbouw: groei van gewassen (https://watchitgrow.be) • Terrascope platform (https://terrascope.be) Voorbeeld: satellietgegevens 16
  17. 17. Voorbeeld: hoe groen is mijn gemeente ? 17
  18. 18. • Auto’s en vrachtwagens registreren situatie op de weg • Putten, ijs, gladde wegen, … • Informatie wordt gedeeld • Waarschuwing naar auto’s in de buurt • Melding naar beheerder van de weg (sneeuwruimers…) • Vb: « BADA » project Volvo / Scania in Zweden • http://www.nvfnorden.org/library/Files/Per- Olof%20Svensk_BADA%207%20June%202017.pdf Voorbeeld: verbeteren situatie autowegen 18
  19. 19. • Veel mensen hebben GSM/smartphones altijd bij de hand • Staan in verbinding met antennes • Operatoren kunnen analyses maken voor evenementen • Via welke weg reizen de bezoekers • Hoe lang blijven ze ter plaatse • Vb: Proximus MyAnalytics • https://www.proximusanalytics.be • Geanonimiseerde rapporten (tegen betaling) • Enkel data van Proximus (schatting voor andere operatoren) Voorbeeld: bezoekers evenement op basis van GSM 19
  20. 20. Voorbeeld: huldiging Rode Duivels 20
  21. 21. • « Wordt het leven duurder in België ? » • Aankopen zoals eten / drinken, maar ook brandstof, kleren • Heeft indirect invloed op indexering (verhoging) huur • O.a. gescande artikelen aan de kassa’s van supermarkten • Vergelijking niet altijd even eenvoudig • Seizoensproducten, zelfde product met andere code … • https://statbel.fgov.be/nl/over- statbel/methodologie/analyses Voorbeeld: consumptieprijsindex Statbel 21
  22. 22. • Formule 1 • 100 – 300 sensoren per F1-auto • Snelheid, bandenspanning, remmen, brandstof … • Voetbal: FC Barcelona • (big) data analytics • Sportieve prestaties en gepersonaliseerde interactie fans Voorbeeld: sport 22
  23. 23. • CERN “Large Hadron Collider” deeltjesversneller • 10 PB/seconde, maar “slechts” 30 PB/jaar wordt bijgehouden • https://home.cern/about/computing/processing-what-record • NASA “Square Kilometre Array” telescoop • Klaar in 2024 ? 1 EB/dag, minstens 200 PB jaar bijhouden • https://www.skatelescope.org Voorbeeld: wetenschap 23
  24. 24. Analyseren en visualiseren van data 24
  25. 25. • Opslag van gegevens wordt steeds goedkoper • Maar niet alles is even nuttig voor een bepaalde analyse • Ook niet altijd duidelijk wat wel / geen invloed heeft • Vaak gedaan om iets te voorspellen of te verbeteren • Voorspellen weer, luchtkwaliteit, verkoop, … • Detecteren van fraude • Samenstellen van nieuwe materialen en geneesmiddelen Analyseren van data 25
  26. 26. • Machines “trainen” om bepaalde patronen te herkennen • Beelden: herkennen personen, verkeersborden, kankercellen • Teksten en producten: automatisch indelen in categorieën • Veel onderzoek naar ML door grote IT-bedrijven • https://www.tensorflow.org (Google) • http://www.paddlepaddle.org (Baidu) • http://torch.ch (Facebook) • https://www.ibm.com/watson (IBM) Machine learning 26
  27. 27. • Bijvoorbeeld via “notebooks” of “dashboards” • Online alternatief voor rapporten en documenten • Vooral populair bij onderzoekers • Kan ook zonder big data gebruikt worden • Vaak geschreven in Python, “R” en/of Javascript • http://shiny.rstudio.com • http://jupyter.org Visualisatie van gegevens 27
  28. 28. Big Data platformen 28
  29. 29. Wanneer Big Data / hoe onderdelen kiezen ? 29 • Big Data enkel zinvol voor grote hoeveelheden data • Terabytes of meer • Heel veel verschillende componenten • Evolueren nog steeds erg snel • Moeten niet allemaal gebruikt worden • Geen systeem dat voor elke situatie perfect is • Ingewikkelde zoekopdrachten of niet ? • Gestructureerde data of niet ? • Koppeling met andere systemen ?
  30. 30. Apache Hadoop 30
  31. 31. Hadoop Big Data platform 31 • Niet het enige platform, maar wel heel populair • Bestaat uit verschillende componenten • HDFS, MapReduce, … • Java open source: gratis op eigen servers te gebruiken • Commercieel pakket: Cloudera, MapR, Hortonworks … • Installatie op eigen machines of “in the cloud” • Amazon, Google, Microsoft, Oracle, SAP … • Let op: niet gratis, kosten om data in/uit systeem te halen …
  32. 32. Hadoop HDFS, vereenvoudigd 32 HDFS
  33. 33. Apache Hadoop HDFS 33 • Gedistribueerd file system • (deel van) schijven op aparte systemen gedragen zich als 1 • Geoptimaliseerd voor grote “batch” leesoperaties • Niet voor kleine “random” schrijfoperaties • Kan gebruikt worden met heel veel “gewone” schijven • Zelfs met duizenden machines, tienduizenden schijven • Honderden petabytes • Data wordt automatisch verdeeld en gekopieerd • Detectie + snel herstellen van fouten (vb: kapotte schijf)
  34. 34. Waarom data verdelen over meerdere systemen ? 34 • Lezen / schrijven van data is niet oneindig snel • Werk verdelen over verschillende machines • Vermijden dat gebruikers te lang moeten wachten • Herstellen van problemen makkelijker maken • Machines en netwerken kunnen tijdelijk falen of kapot gaan
  35. 35. MapReduce 35 • Manier om taken parallel uit te voeren • Vb: tellen van woorden, zoeken • Voor heel grote hoeveelheden data • (veel) meer dan in het geheugen past • Bedoeld voor taken waar alle data 1 keer gelezen wordt • Berekeningen verdelen • Zo dicht mogelijk bij de data uitvoeren • Vermijden dat data heen en weer wordt gestuurd • Resultaten combineren
  36. 36. Apache HBase 36 • Database die bovenop HDFS kan draaien • Voor zeer grote databases (miljarden rijen) • Geen volledige vervanging van “klassieke” databases • Geen ingewikkelde queries • Niet veel structuur • Postgresql, Oracle… hebben ook andere mogelijkheden
  37. 37. Enkele andere componenten 37 • Apache Cassandra • Ook een database • “altijd beschikbaar” belangrijker dan “altijd dezelfde data” • Apache Hive • SQL-achtige taal bovenop Hadoop • Makkelijker maken om Hadoop te gebruiken
  38. 38. Vereenvoudigd overzicht 38 HDFS HBase Map Reduce API API Hive
  39. 39. • Apache open source • https://projects.apache.org/projects.html?category#big-data • http://hadoop.apache.org • http://spark.apache.org • Big Data Community: • http://bigdata.be • Jaarlijks Data Science evenement: • https://datasciencebe.com Enkele big data / data science linken 39
  40. 40. Apache Spark 40
  41. 41. Apache Spark kenmerken 41 • Kan bovenop HDFS kan draaien of apart • Alternatief voor MapReduce • Spark kan verwerkingen in geheugen uitvoeren • Veel sneller voor kleinere hoeveelheden data • Geschikter om meerdere keren door zelfde data te lopen
  42. 42. Open Data 42
  43. 43. • Data zonder gevoelige / persoonlijke informatie • Wel: statistieken, • Niet: medisch dossier • In een makkelijk te verwerken formaat • Vb: tabellen in MS-Excel, CSV, XML … • Door iedereen gratis te hergebruiken • Ook voor commerciële doeleinden Wat is Open Data ? 43
  44. 44. Open Data Big Data Open Data en Big Data 44
  45. 45. • Big data is niet altijd open data • Vb: veel big data in bedrijven is niet publiek, of niet gratis • Open data is niet altijd big data • Vb: lijst van scholen in Brussel is kort Open Data en Big Data (2) 45
  46. 46. • Meestal overheidsdiensten • Steden, Gewesten, federale overheid … • Worden via belastingen betaald door de burgers en bedrijven • Verplichtingen opgelegd door Europese Unie • Soms ook bedrijven • Vb: bedrijven die fietsen of auto’s verhuren • Vaak ook personen / vrijwilligers • Vb: WikiPedia, OpenStreetMap, … Wie publiceert open data ? 46
  47. 47. • Vooral steden publiceren adresinformatie • Pleinen, zwembaden, … • Kaartgegevens • Gemeentegrenzen, 3D-kaart Vlaanderen, … • Heel veel statistieken • Bevolking per gemeente, gemiddelde prijzen, … Over welke soort data gaat het ? 47
  48. 48. • Combineren met andere data • Artikels schrijven • Vb: gemiddelde prijs huis/appartement per gemeente • Websites bouwen • Vb: https://ici.brussels/nl • Apps bouwen • Vb: “Top Baby Names”: populaire voornamen Wat kan je er mee doen ? 48
  49. 49. Voorbeeld: website Limburg in Cijfers 49
  50. 50. • Verschillende formaten worden door elkaar gebruikt • CSV, MS-Excel, XML, JSON… • Mogelijk ook verschillende informatie per streek • Soms is bronvermelding verplicht, soms niet • Vaak ook geen garantie op beschikbaarheid / updates • Geen contract Aandachtspunten open data 50
  51. 51. • Open data portaal: • https://data.gov.be • Jaarlijks open data evenement: • http://www.openbelgium.be • OpenKnowledge community: • https://www.openknowledge.be Enkele open data linken 51
  52. 52. Vragen ? 52
  53. 53. BOSA.be @BartHanssens bart.hanssens@bosa.fgov.be opendata@belgium.be Bedankt !

×