Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Lielie dati-planētas-nervu-sistēma
1. Lielie dati –
planētas nervu
sistēma
Dr.sc.comp. Juris Rāts
6.12.2013
RIX Technologies
http://www.slideshare.net/JurisRats/lielie-datiplantasnervusistma
3. Lielie dati
• No civilizācijas sākumiem līdz 2003. gadam
mēs esam radījuši 5EB (5 miljardus GB) datus
• 2011.g. tāds apjoms tika radīts 2 dienu laikā
• 2013.g. – 10 minūšu laikā
• 2012.g. 2,8ZB datu (iPad 32GB disks, siena
3*4,5 metri no Rīgas līdz Francijas vistālākajam
rietumu punktam Bretaņā - 2800km)
• 2020.g. – 40ZB (apkārt zemeslodei)
5. Facebook
• Mēnesī 1,29 miljardi aktīvu lietotāju (dienā
vidēji 728 miljoni)
• 70 valodas
• 125 miljardi draugu saišu (vidēji 234)
• Ik dienas
– Vairāk nekā 300 miljoni fotogrāfiju
– 2,7 miljardi komentāru un simpātiju (like)
6. Lieli dati
• Volume
• Velocity
• Variety
http://www.slideshare.net/CengageLearning/mark-frydenberg-drinking-from-the-fire-hose
10. Veselība
• Sieviete guļ uz 2 spilveniem, vīrietis – uz viena
• 81.3% sieviešu un 55.3% vīriešu guļ uz sāniem
• Tie, kuri pēc 17:00 sērfo internetā, vidēji iet
gulēt par 37 minūtēm vēlāk
http://jawbone.tumblr.com
12. Visuresošā skaitļošana
• Gudrā māja - elektrības, ūdens, gāzes
patēriņa sensori (11% rēķina par video)
http://ubicomplab.cs.washington.edu/
13. Pētniecība
• Valodas apgūšana (MIT - 3 gadi 250K stundas
video un audio par sava jaundzimušā dēla
katru izrunāto vārdu)
• Google: visu kopš 1500.g. angliski publicēto
500 mljrd. vārdu analīze 5 milj. grāmatās.
– autors, biežums, konteksts
– love, war cīnījās par pirmo vietu 1800-1914g.,
kopš 1914.g. war ir līderis
14. Pētniecība
• Ārpuszemes civilizācijas – radioteleskopu datu
analīze (1999.g. SETI@home – 10milj. cilvēku
2 milj. stundu datorlaika)
http://setiathome.ssl.berkeley.edu/
15. Daudzpakalpojums
(Crowdsourcing)
• reCAPTCHA
• Papirusu tekstu digitalizācija (Ohyrhynchus XIXgs beigās
500K papirusu, 100 gadu laikā 15%), ancientlives.org dažu
mēnešu laikā digitalizēti 4000 papirusi
http://www.google.com/recaptcha
17. Lietu internets
• Santanderas projekts
– vides monitorings, transporta
intensitāte, zaļo zonu
monitorings, stāvvietas
http://www.smartsantander.eu/index.php/testbeds/item/132-santander-summary
18. Un vēl...
– Google: 2012.g. maijā – pirmā vadītāja apliecība
bezpilotu automobilim
– Pasaules virtuāls modelis, autostrādes, pilsētu
ielas
19. Lielo datu nozīme
• Ikviens lēmums cilvēces 200 000 pastāvēšanas
gados ir bijis balstīts uz nepilnīgu informāciju
(par vidi, laika apstākļiem, resursiem,
konkurentiem, klientiem, sabiedrības
viedokli...)
• Informācijas trūkums -> informācijas
pārpilnība
• nojauta, minējumi -> zināšanas
20. Lielo datu nozīme
• Lēta datortehnika dod iespēju saglabāt un
izmantot milzīgus (Volume), strauji veidojošos
(Velocity) un dažādas formas (Variety) datus,
tādējādi padarot iespējamus jaunus, kvalitatīvi
pilnvērtīgākus risinājumus
• Datu vadīta (data driven) inovācija
• Plaši pielietojamas tehnoloģijas
21. Cilvēces nervu sistēma
• Cilvēks vairs nav datu apstrādes centrālais
elements, bet viens no mezgliem sadalītā datu
apstrādes sistēmā (Koperniks)
• Visur esoša decentralizēta daudzaģentu
sistēma, kas apvieno savā starpā
komunicējošus cilvēkus, datorus, sensorus –
veidojas cilvēces nervu sistēma
24. Drošība un privātums
• Privātuma aizsardzība: viss tiek uzkrāts –
telefona sarunas, īsziņas, pārlūku vēsture, gps
dati, interneta pirkumi, bankas transakcijas,
veselības dati, pārvietošanās dati (lidmašīnas,
viesnīcas) utml.
• Vai tagad jūsu dati ir drošībā (pasu zādzības,
uzņēmumu iekšējo sistēmu drošība)?
• Vai cilvēki grib aizsargāt savu privāto dzīvi?
Datasexual, Facebook face-lift
25. Jaunas tehnoloģijas
• Scaling out: daudzaģentu sistēmas, nedalītā
datu apstrāde, mākoņdatošana (SaaS –
Amazon.com)
• NoSQL datubāzes – specifiskiem problēmu
apgabaliem (http://nosql-database.org/)
– Grafu datubāzes (Neo4J – Facebook)
– Dokumentu datubāzes (Clusterpoint)
27. Produktu attīstība
• Henrijs Fords un «ātrāki zirgi»
• Meklējam jaunas pieejas savu produktu
attīstībai:
– Klāsterēta arhitektūra, NoSQL datubāze, uzlabota
vizualizācija
– Klienta biznesa procesu uzlabošana atbilstoši Lielo
datu tehnoloģiju iespējām
www.rixtech.lv
29. Aktuālie projekti
• ERAF projekti par Lielo datu tehnoloģiju
izmantošanas iespējām
• Aktuālais pētniecības projekts - biznesa datu
vizuālā analīze (0,5% dati tiek analizēti; 64
divriteņu nomas vizualizācijas veidi)
– Kādi dati ir jāuzkrāj
– Kā organizēt datus, lai tos varētu efektīvi analizēt
un vizualizēt;
– Kādā formā dati ir jāvizualizē