SlideShare une entreprise Scribd logo
1  sur  49
Télécharger pour lire hors ligne
Van	
  veel	
  data,	
  	
  
snelle	
  computers	
  	
  
en	
  complexe	
  modellen	
  	
  	
  
tot	
  zelflerende	
  machines	
  

Max	
  Welling	
  
Universiteit	
  van	
  Amsterdam	
  
29	
  januari	
  2014	
  

1	
  
Big	
  Data	
  

2	
  
Hoeveel	
  Data	
  =	
  Big	
  Data?	
  

Totale	
  hoeveelheid	
  data	
  door	
  de	
  mens	
  gegenereerd:	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  4	
  zeIabyte	
  =	
  4,000,000,000,000,000,000,000	
  byte.	
  
	
  
Dat	
  is	
  8	
  miljard	
  harde	
  schijven	
  met	
  data	
  	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  =	
  een	
  stapel	
  van	
  de	
  aarde	
  tot	
  de	
  maan	
  als	
  elke	
  schijf	
  5	
  cm	
  dik	
  is.	
  	
  

3	
  
De	
  Big	
  Data	
  Kampioen	
  
Astronomen	
  zijn	
  de	
  kampioen	
  in	
  het	
  produceren	
  van	
  big	
  data:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  In	
  2024	
  ongeveer	
  1	
  exabyte	
  per	
  dag	
  =	
  evenveel	
  als	
  alle	
  data	
  tot	
  nu	
  toe	
  in	
  10	
  jaar	
  Tjd.	
  

4	
  
De	
  BeloUen	
  
Een	
  veiligere	
  samenleving:	
  
•  Bestrijding	
  van	
  cybercriminaliteit	
  en	
  terrorisme	
  
	
  
	
  
Een	
  eerlijkere	
  samenleving:	
  
•  De	
  elektronische	
  advocaat	
  
	
  
	
  
Verbeterde	
  gezondheidszorg:	
  
•  Persoonlijke	
  afstemming	
  medicaTe	
  	
  
	
  
Meer	
  gemak:	
  
•  AnTcipaTe	
  van	
  behoeUen	
  
	
  

5	
  
De	
  Gevaren	
  
Privacy	
  schendingen:	
  
•  Hoe	
  ver	
  mag	
  de	
  AIVD	
  gaan:	
  balans	
  privacy	
  /	
  veiligheid	
  
•  Wat	
  mag	
  Google	
  met	
  onze	
  data	
  doen?	
  
	
  
	
  
Misbruik	
  poliTek:	
  (Big	
  Brother)	
  
•  Chantage	
  poliTeke	
  tegenstanders	
  
	
  
	
  
Misbruik	
  verzekering:	
  
•  “De	
  kans	
  dat	
  u	
  kanker	
  ontwikkeld	
  voor	
  	
  
	
  	
  	
  	
  	
  	
  	
  uw	
  50e	
  is	
  70	
  procent,	
  dus	
  we	
  hebben	
  uw	
  polis	
  wat	
  verhoogd.”	
  	
  	
  
	
  
	
  
Werkeloosheid:	
  
•  Zelfrijdende	
  auto’s	
  vervangen	
  alle	
  vrachtwagenchauffeurs.	
  
•  Computers	
  vervangen	
  artsen,	
  advocaten	
  etc.	
  
6	
  
Datamining:	
  Het	
  Ontsluiten	
  van	
  InformaTe	
  uit	
  Data	
  

data	
  =	
  gouderts	
  
nufge	
  informaTe	
  =	
  goud	
  
machine	
  learning	
  =	
  drilboor	
  en	
  pikhouweel	
  
7	
  
De	
  Datascope	
  
+	
  

=	
  

+	
  

De	
  datascope:	
  	
  

	
  
De	
  computer	
  algoritmen	
  waarmee	
  we	
  de	
  materie	
  van	
  nullen	
  en	
  enen	
  kunnen	
  analyseren.	
  
	
  

8	
  
Machine	
  Learning	
  +	
  Big	
  Data	
  
+	
  

Een	
  voorbeeld	
  uit	
  de	
  dagelijkse	
  prakTjk:	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  “shoppen	
  bij	
  Appie”	
  	
  

10	
  miljoen	
  klanten	
  x	
  2	
  bezoekjes	
  per	
  week	
  x	
  52	
  weken	
  x	
  10	
  boodschappen	
  per	
  bezoek	
  =	
  
	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  ±	
  10	
  miljard	
  boodschappen	
  per	
  jaar	
  !	
  
9	
  
Gordon	
  bij	
  de	
  	
  Appie	
  	
  

+	
  

• 
• 
• 
• 
• 
	
  

45	
  jaar	
  oud	
  
zanger	
  
man	
  
woont	
  samen	
  
…	
  

Gordon	
  kocht:	
  
	
  
•  op	
  29	
  januari	
  
•  om	
  16:35	
  uur	
  
•  op	
  de	
  Reguliersbreestraat	
  22-­‐A	
  
•  In	
  Amsterdam	
  
•  een	
  pak	
  biologische	
  yoghurt	
  
•  plus	
  
•  ……	
  
	
  

• 
• 
• 
• 
• 

melkproduct	
  
0.99	
  €	
  
biologisch	
  
1	
  liter	
  
…	
  
10	
  
 Toepassing:	
  Persoonlijke	
  Aanbiedingen	
  

•  Aanbiedingen	
  op	
  persoonlijk	
  niveau	
  
11	
  
Het	
  allersimpelste	
  	
  
machine	
  learning	
  algoritme	
  

⇡

⇡

•  Gerard	
  Joling	
  lijkt	
  op	
  Gordon	
  	
  
	
  
•  Gerard	
  heeU	
  al	
  vanillevla	
  gekocht	
  	
  
•  Vanillevla	
  lijkt	
  op	
  yoghurt	
  
•  Gerard	
  Joling	
  vindt	
  waarschijnlijk	
  lekker	
  
12	
  
Het	
  alleringewikkelste	
  	
  
machine	
  learning	
  algoritme	
  

•  Een	
  neuraal	
  netwerk	
  getraind	
  bij	
  Google	
  met	
  vele	
  duizenden	
  computers,	
  op	
  vele	
  
	
  	
  	
  	
  	
  	
  miljoenen	
  Youtube	
  videos.	
  
	
  
13	
  
•  Resultaat:	
  een	
  model	
  met	
  10	
  miljard	
  “vrijheidsgarden”	
  (parameters).	
  
Steeds	
  complexere	
  modellen	
  	
  	
  
2020-­‐2050	
  menselijk	
  brein	
  
(N=+/-­‐	
  100T)	
  

?	
  

Groei	
  van	
  de	
  capaciteit	
  van	
  modellen	
  	
  

2009:	
  Hinton’s	
  Deep	
  Belief	
  Net	
  
(+/-­‐	
  N=10M)	
  

2013:	
  Google/Y!	
  	
  
(N=+/-­‐	
  10B)	
  

1943:	
  First	
  NN	
  
(+/-­‐	
  N=10)	
  

1988:	
  NetTalk	
  
(+/-­‐	
  N=20K)	
  

Log-­‐log	
  plot	
  
14	
  
ExponenTële	
  groei	
  
Hoe	
  vaak	
  moet	
  je	
  een	
  krant	
  van	
  0.1	
  mm	
  dik	
  vouwen	
  om	
  een	
  stapel	
  te	
  creëren	
  	
  
	
  die	
  even	
  groot	
  is	
  als	
  de	
  doorsnede	
  van	
  het	
  gehele	
  universum?	
  

Antwoord:	
  

15	
  
De	
  Drie	
  Explosieve	
  GroeiweIen	
  
•  Computerkracht	
  (Moore’s	
  law)	
  

•  Datavolume	
  (Big	
  Data)	
  

•  Modellencapaciteit	
  (Deep	
  Learning)	
  

16	
  
Is	
  de	
  Silo	
  te	
  Groot?	
  

17	
  
InformaTe	
  

veel	
  informaTe	
  

weinig	
  informaTe	
  

Claude	
  Shannon	
  

18	
  
Nufge	
  InformaTe	
  
Nu#ge	
  informa.e:	
  	
  
	
  
InformaTe	
  waar	
  we	
  mee	
  kunnen	
  voorspellen	
  

weinig	
  nufge	
  informaTe	
  

veel	
  nufge	
  informaTe	
  

weinig	
  nufge	
  informaTe	
  
19	
  
De	
  InformaTe	
  Zeef	
  

20	
  
De	
  InformaTe	
  Zeef	
  

21	
  
Wat	
  is	
  dit?	
  

22	
  
“Weten	
  =	
  Vergeten”	
  
AbstracTe	
  
=	
  EssenTe	
  

•  Om	
  te	
  generaliseren	
  moet	
  u	
  de	
  details	
  vergetenen	
  de	
  essenTe	
  onthouden.	
  
	
  
23	
  
Verminderde	
  Meerwaarde	
  

Hoe	
  langer	
  je	
  graaU	
  in	
  dezelfde	
  goudmijn,	
  des	
  te	
  moeilijker	
  het	
  wordt	
  	
  
	
  om	
  het	
  goud	
  te	
  vinden.	
  

24	
  
Verminderde	
  meerwaarde	
  

De	
  wet	
  van	
  de	
  verminderde	
  meerwaarde	
  van	
  data:	
  
	
  
Hoe	
  meer	
  data	
  je	
  hebt	
  van	
  één	
  bron,	
  hoe	
  minder	
  extra	
  nufge	
  informaTe	
  die	
  bevat.	
  
	
  	
  
25	
  
De	
  Paradox	
  

•  Er	
  is	
  niet	
  genoeg	
  nu7ge	
  informaTe	
  in	
  exponenTeel	
  groeiende	
  data	
  	
  
	
  	
  	
  	
  	
  	
  om	
  de	
  exponenTeel	
  groeiende	
  model	
  capaciteit	
  mee	
  te	
  vullen.	
  
	
  
•  Gevaar:	
  de	
  extra	
  capaciteit	
  wordt	
  gevuld	
  met	
  ruis:	
  overfi7ng	
  
26	
  
Overfifng:	
  E	
  en	
  Experiment	
  

27	
  
De	
  “Stelling	
  van	
  Welling”	
  

+	
  

	
  

Big	
  Data	
  +	
  Complexe	
  Modellen	
  à	
  Meer	
  Overfi7ng	
  

28	
  
ResoluTe:	
  Verklein	
  Modelcapaciteit	
  	
  

29	
  
De	
  wijsheid	
  van	
  de	
  menigte	
  

30	
  
Een	
  Experiment	
  
•  Schat	
  het	
  gewicht	
  van	
  de	
  Eiffel	
  toren	
  (in	
  kg)	
  
	
  	
  	
  	
  	
  	
  (u	
  mag	
  niet	
  awijken!)	
  
	
  
•  Sorteer	
  de	
  schafngen.	
  
	
  
•  Neem	
  het	
  middelste	
  getal:	
  (1,2,3,4,5)	
  
•  Fouten	
  annuleren	
  elkaar.	
  	
  	
  

Antwoord:	
  

31	
  
Ensembles	
  van	
  Lijnen	
  

32	
  
Een	
  Analogie	
  

model	
  is	
  te	
  simpel	
  

model	
  is	
  te	
  complex,	
  
maar	
  gemiddelde	
  is	
  accuraat	
  

33	
  
SamenvaIend	
  

“Big	
  Data”	
  

“Moore’s	
  Law”	
  

“Deep	
  Learning”	
  

34	
  
Industry	
  is	
  Deeply	
  Interested	
  

35	
  
Vers	
  van	
  de	
  Pers	
  
Het	
  Opleiden	
  van	
  de	
  Menigte	
  

•  “Massive	
  Open	
  Online	
  Courses”	
  (MOOC)	
  zijn	
  voor	
  iedereen	
  graTs	
  toegankelijk.	
  
•  100,000	
  studenten	
  over	
  de	
  hele	
  wereld	
  volgen	
  soms	
  samen	
  één	
  cursus	
  
	
  	
  	
  

37	
  
Iedereen	
  kan	
  meedoen…	
  

38	
  
Crowdsourcing:	
  
ParTcipaTe	
  in	
  de	
  Wetenschap	
  

39	
  
De	
  Menselijke	
  Computer	
  

40	
  
Het	
  Nufge	
  met	
  het	
  Aangename	
  Combineren	
  
Het	
  “ESP”	
  spel	
  	
  

reCaptcha’s	
  
41	
  
Online	
  CompeTTes	
  

42	
  
Iedereen	
  kan	
  winnen…	
  

43	
  
Data	
  Science	
  

44	
  
Machine	
  Learning	
  bruist	
  van	
  het	
  leven!	
  

ExponenTele	
  Groei	
  Bezoekers	
  op	
  NIPS	
  
BeloUen	
  en	
  Gevaren	
  

•  Verbeterde	
  gezondheidszorg	
  
	
  
•  Een	
  veiliger	
  samenleving	
  

•  Privacy	
  schendingen	
  

•  Meer	
  gemak	
  

•  Werkeloosheid	
  

•  Misbruik	
  	
  

46	
  
Het	
  Nederlandse	
  Academische	
  Systeem	
  

47	
  
48	
  
Ten	
  SloIe	
  

Ik	
  heb	
  gezegd	
  

Contenu connexe

Similaire à From Big Data, fast computers and complex models towards learning machines

Worden machinesslimmerdanmensen
Worden machinesslimmerdanmensenWorden machinesslimmerdanmensen
Worden machinesslimmerdanmensenMax Welling
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Erik Van Der Zee
 
Quantum computing - Korte voorstelling
Quantum computing - Korte voorstellingQuantum computing - Korte voorstelling
Quantum computing - Korte voorstellingMaxim Lannoy
 
De data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorgDe data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorgMartijn Zoet
 
Society 3.0 overvloed dankzij technologie 15 april 2020
Society 3.0 overvloed dankzij technologie 15 april 2020Society 3.0 overvloed dankzij technologie 15 april 2020
Society 3.0 overvloed dankzij technologie 15 april 2020Jurjen de Vries
 
Cloudxp keynote 19 sept pvu
Cloudxp keynote 19 sept pvuCloudxp keynote 19 sept pvu
Cloudxp keynote 19 sept pvuPiet van Vugt
 
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)Arjen de Vries
 
Marketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenMarketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenOnedaycompany
 
Presentation fifi5
Presentation fifi5Presentation fifi5
Presentation fifi5Paul Jansen
 
30062017 leveranciersbijeenkomst big data
30062017  leveranciersbijeenkomst big data30062017  leveranciersbijeenkomst big data
30062017 leveranciersbijeenkomst big dataKING
 
Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?saMBO-ICT
 
Ict Artikel In Villages Maart 2010
Ict Artikel In Villages Maart 2010Ict Artikel In Villages Maart 2010
Ict Artikel In Villages Maart 2010GroenICT
 
Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)
Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)
Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)Bram Klievink
 
Dell Hans Timmerman
Dell Hans TimmermanDell Hans Timmerman
Dell Hans TimmermanTalentEvent
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRJasmina Tepic MA
 
Nieuwjaarsbijeenkomst citadel 2014
Nieuwjaarsbijeenkomst citadel 2014Nieuwjaarsbijeenkomst citadel 2014
Nieuwjaarsbijeenkomst citadel 2014DWA
 
Big data themalunch def
Big data themalunch   defBig data themalunch   def
Big data themalunch defRutger Leer
 

Similaire à From Big Data, fast computers and complex models towards learning machines (20)

Worden machinesslimmerdanmensen
Worden machinesslimmerdanmensenWorden machinesslimmerdanmensen
Worden machinesslimmerdanmensen
 
Big data: de mogelijkheden en de moeilijkheden
Big data: de mogelijkheden en de moeilijkhedenBig data: de mogelijkheden en de moeilijkheden
Big data: de mogelijkheden en de moeilijkheden
 
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
Key-Note Big Data - In a Nutshell (Big Data symposium provincies april 2016)
 
Quantum computing - Korte voorstelling
Quantum computing - Korte voorstellingQuantum computing - Korte voorstelling
Quantum computing - Korte voorstelling
 
De data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorgDe data-driehoek en artificial intelligence in de zorg
De data-driehoek en artificial intelligence in de zorg
 
Society 3.0 overvloed dankzij technologie 15 april 2020
Society 3.0 overvloed dankzij technologie 15 april 2020Society 3.0 overvloed dankzij technologie 15 april 2020
Society 3.0 overvloed dankzij technologie 15 april 2020
 
Media en ICT in kennissamenleving
Media en ICT in kennissamenlevingMedia en ICT in kennissamenleving
Media en ICT in kennissamenleving
 
Business innovatie in de cloud
Business innovatie in de cloudBusiness innovatie in de cloud
Business innovatie in de cloud
 
Cloudxp keynote 19 sept pvu
Cloudxp keynote 19 sept pvuCloudxp keynote 19 sept pvu
Cloudxp keynote 19 sept pvu
 
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
Beverwedstrijd Big Data (groep 5/6 en klas 1/2)
 
Marketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de WolkenMarketeers van Firewall tot in de Wolken
Marketeers van Firewall tot in de Wolken
 
Presentation fifi5
Presentation fifi5Presentation fifi5
Presentation fifi5
 
30062017 leveranciersbijeenkomst big data
30062017  leveranciersbijeenkomst big data30062017  leveranciersbijeenkomst big data
30062017 leveranciersbijeenkomst big data
 
Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?Het Internet der Dingen, wat is het?
Het Internet der Dingen, wat is het?
 
Ict Artikel In Villages Maart 2010
Ict Artikel In Villages Maart 2010Ict Artikel In Villages Maart 2010
Ict Artikel In Villages Maart 2010
 
Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)
Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)
Haardvuursessie 27-05-2009 - Presentatie Bas Kotterink (TNO)
 
Dell Hans Timmerman
Dell Hans TimmermanDell Hans Timmerman
Dell Hans Timmerman
 
RWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LRRWS Lichtkogel Cahier Big Data 2014_LR
RWS Lichtkogel Cahier Big Data 2014_LR
 
Nieuwjaarsbijeenkomst citadel 2014
Nieuwjaarsbijeenkomst citadel 2014Nieuwjaarsbijeenkomst citadel 2014
Nieuwjaarsbijeenkomst citadel 2014
 
Big data themalunch def
Big data themalunch   defBig data themalunch   def
Big data themalunch def
 

From Big Data, fast computers and complex models towards learning machines

  • 1. Van  veel  data,     snelle  computers     en  complexe  modellen       tot  zelflerende  machines   Max  Welling   Universiteit  van  Amsterdam   29  januari  2014   1  
  • 3. Hoeveel  Data  =  Big  Data?   Totale  hoeveelheid  data  door  de  mens  gegenereerd:                                                                                                                                                        4  zeIabyte  =  4,000,000,000,000,000,000,000  byte.     Dat  is  8  miljard  harde  schijven  met  data                                                                                                                  =  een  stapel  van  de  aarde  tot  de  maan  als  elke  schijf  5  cm  dik  is.     3  
  • 4. De  Big  Data  Kampioen   Astronomen  zijn  de  kampioen  in  het  produceren  van  big  data:                                In  2024  ongeveer  1  exabyte  per  dag  =  evenveel  als  alle  data  tot  nu  toe  in  10  jaar  Tjd.   4  
  • 5. De  BeloUen   Een  veiligere  samenleving:   •  Bestrijding  van  cybercriminaliteit  en  terrorisme       Een  eerlijkere  samenleving:   •  De  elektronische  advocaat       Verbeterde  gezondheidszorg:   •  Persoonlijke  afstemming  medicaTe       Meer  gemak:   •  AnTcipaTe  van  behoeUen     5  
  • 6. De  Gevaren   Privacy  schendingen:   •  Hoe  ver  mag  de  AIVD  gaan:  balans  privacy  /  veiligheid   •  Wat  mag  Google  met  onze  data  doen?       Misbruik  poliTek:  (Big  Brother)   •  Chantage  poliTeke  tegenstanders       Misbruik  verzekering:   •  “De  kans  dat  u  kanker  ontwikkeld  voor                  uw  50e  is  70  procent,  dus  we  hebben  uw  polis  wat  verhoogd.”           Werkeloosheid:   •  Zelfrijdende  auto’s  vervangen  alle  vrachtwagenchauffeurs.   •  Computers  vervangen  artsen,  advocaten  etc.   6  
  • 7. Datamining:  Het  Ontsluiten  van  InformaTe  uit  Data   data  =  gouderts   nufge  informaTe  =  goud   machine  learning  =  drilboor  en  pikhouweel   7  
  • 8. De  Datascope   +   =   +   De  datascope:       De  computer  algoritmen  waarmee  we  de  materie  van  nullen  en  enen  kunnen  analyseren.     8  
  • 9. Machine  Learning  +  Big  Data   +   Een  voorbeeld  uit  de  dagelijkse  prakTjk:                              “shoppen  bij  Appie”     10  miljoen  klanten  x  2  bezoekjes  per  week  x  52  weken  x  10  boodschappen  per  bezoek  =                                                                            ±  10  miljard  boodschappen  per  jaar  !   9  
  • 10. Gordon  bij  de    Appie     +   •  •  •  •  •    45  jaar  oud   zanger   man   woont  samen   …   Gordon  kocht:     •  op  29  januari   •  om  16:35  uur   •  op  de  Reguliersbreestraat  22-­‐A   •  In  Amsterdam   •  een  pak  biologische  yoghurt   •  plus   •  ……     •  •  •  •  •  melkproduct   0.99  €   biologisch   1  liter   …   10  
  • 11.  Toepassing:  Persoonlijke  Aanbiedingen   •  Aanbiedingen  op  persoonlijk  niveau   11  
  • 12. Het  allersimpelste     machine  learning  algoritme   ⇡ ⇡ •  Gerard  Joling  lijkt  op  Gordon       •  Gerard  heeU  al  vanillevla  gekocht     •  Vanillevla  lijkt  op  yoghurt   •  Gerard  Joling  vindt  waarschijnlijk  lekker   12  
  • 13. Het  alleringewikkelste     machine  learning  algoritme   •  Een  neuraal  netwerk  getraind  bij  Google  met  vele  duizenden  computers,  op  vele              miljoenen  Youtube  videos.     13   •  Resultaat:  een  model  met  10  miljard  “vrijheidsgarden”  (parameters).  
  • 14. Steeds  complexere  modellen       2020-­‐2050  menselijk  brein   (N=+/-­‐  100T)   ?   Groei  van  de  capaciteit  van  modellen     2009:  Hinton’s  Deep  Belief  Net   (+/-­‐  N=10M)   2013:  Google/Y!     (N=+/-­‐  10B)   1943:  First  NN   (+/-­‐  N=10)   1988:  NetTalk   (+/-­‐  N=20K)   Log-­‐log  plot   14  
  • 15. ExponenTële  groei   Hoe  vaak  moet  je  een  krant  van  0.1  mm  dik  vouwen  om  een  stapel  te  creëren      die  even  groot  is  als  de  doorsnede  van  het  gehele  universum?   Antwoord:   15  
  • 16. De  Drie  Explosieve  GroeiweIen   •  Computerkracht  (Moore’s  law)   •  Datavolume  (Big  Data)   •  Modellencapaciteit  (Deep  Learning)   16  
  • 17. Is  de  Silo  te  Groot?   17  
  • 18. InformaTe   veel  informaTe   weinig  informaTe   Claude  Shannon   18  
  • 19. Nufge  InformaTe   Nu#ge  informa.e:       InformaTe  waar  we  mee  kunnen  voorspellen   weinig  nufge  informaTe   veel  nufge  informaTe   weinig  nufge  informaTe   19  
  • 22. Wat  is  dit?   22  
  • 23. “Weten  =  Vergeten”   AbstracTe   =  EssenTe   •  Om  te  generaliseren  moet  u  de  details  vergetenen  de  essenTe  onthouden.     23  
  • 24. Verminderde  Meerwaarde   Hoe  langer  je  graaU  in  dezelfde  goudmijn,  des  te  moeilijker  het  wordt      om  het  goud  te  vinden.   24  
  • 25. Verminderde  meerwaarde   De  wet  van  de  verminderde  meerwaarde  van  data:     Hoe  meer  data  je  hebt  van  één  bron,  hoe  minder  extra  nufge  informaTe  die  bevat.       25  
  • 26. De  Paradox   •  Er  is  niet  genoeg  nu7ge  informaTe  in  exponenTeel  groeiende  data                om  de  exponenTeel  groeiende  model  capaciteit  mee  te  vullen.     •  Gevaar:  de  extra  capaciteit  wordt  gevuld  met  ruis:  overfi7ng   26  
  • 27. Overfifng:  E  en  Experiment   27  
  • 28. De  “Stelling  van  Welling”   +      Big  Data  +  Complexe  Modellen  à  Meer  Overfi7ng   28  
  • 30. De  wijsheid  van  de  menigte   30  
  • 31. Een  Experiment   •  Schat  het  gewicht  van  de  Eiffel  toren  (in  kg)              (u  mag  niet  awijken!)     •  Sorteer  de  schafngen.     •  Neem  het  middelste  getal:  (1,2,3,4,5)   •  Fouten  annuleren  elkaar.       Antwoord:   31  
  • 33. Een  Analogie   model  is  te  simpel   model  is  te  complex,   maar  gemiddelde  is  accuraat   33  
  • 34. SamenvaIend   “Big  Data”   “Moore’s  Law”   “Deep  Learning”   34  
  • 35. Industry  is  Deeply  Interested   35  
  • 36. Vers  van  de  Pers  
  • 37. Het  Opleiden  van  de  Menigte   •  “Massive  Open  Online  Courses”  (MOOC)  zijn  voor  iedereen  graTs  toegankelijk.   •  100,000  studenten  over  de  hele  wereld  volgen  soms  samen  één  cursus         37  
  • 39. Crowdsourcing:   ParTcipaTe  in  de  Wetenschap   39  
  • 41. Het  Nufge  met  het  Aangename  Combineren   Het  “ESP”  spel     reCaptcha’s   41  
  • 45. Machine  Learning  bruist  van  het  leven!   ExponenTele  Groei  Bezoekers  op  NIPS  
  • 46. BeloUen  en  Gevaren   •  Verbeterde  gezondheidszorg     •  Een  veiliger  samenleving   •  Privacy  schendingen   •  Meer  gemak   •  Werkeloosheid   •  Misbruik     46  
  • 47. Het  Nederlandse  Academische  Systeem   47  
  • 48. 48  
  • 49. Ten  SloIe   Ik  heb  gezegd