Contenu connexe Similaire à Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy (20) Aalto yliopisto "Taulukkolaskenta ja analytiikka"-kurssi, luento 04.11.2013, Ivorio Oy2. Ivorion missio
Ivorio on Pohjoismaiden johtava
riippumaton big data -asiantuntija.
Autamme asiakkaitamme ratsastamaan
tiedon vallankumouksen aallonharjalla.
5. © Ivorio 2013
“Big Data” kiinnostus nousee nopeasti
Google-haun “big data” suosio 1.11.2013 asti
6. Mistä big datassa on kysymys?
1.
Volume
Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä
tallentamaan ja hyödyntämään.
2. Velocity
Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi
pystyä tekemään nopeasti.
3. Variety
Tietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä,
eikä se istu hyvin nykyisiin toimintamalleihin
Veracity, Value Virality, Validity, Viscosity…
myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
Ensimmäisenä tämän esitti META Group, jonka Gartner osti vuonna 2005
7. © Ivorio 2013
Datan alkuperä
Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)
8. © Ivorio 2013
Datan alkuperä
Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)
Digitaalinen todellisuus
(internet, sosiaalinen media)
9. © Ivorio 2013
Datan alkuperä
Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
10. © Ivorio 2013
Datan alkuperä
Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Saatavilla olevat datavarannot
(avoin data, datamarkkinat)
11. © Ivorio 2013
Datan alkuperä
Organisaation
hallussa tai
saatavilla oleva
data (ERP, CRM,
DW, RDBMS)
Digitaalinen todellisuus
(internet, sosiaalinen media)
Fyysinen todellisuus
(sensorit, esineiden internet)
Saatavilla olevat datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data
(ei vielä kerätä)
12. © Ivorio 2013
“
McKinsey:
By 2009, nearly all sectors in US
economy had at least an average of
200 terabytes of stored data per
company with more than 1 000
employees.
14. © Ivorio 2013
Kuinka suuret ovat big data -markkinat?
Yleisin luku on välillä 15-50 mrd €
○ IDC sanoo (12/2012), että vuonna 2016 markkinoiden
koko on n. 26 mrd $
○ Gartner sanoo (10/2012), että vuonna 2012 big data markkinat olivat n. 28 mrd $
○ Wikibon ennustaa (02/2012), että big data -markkinat
ovat vuonna 2015 n. 54 mrd $
○ McKinseyn raportissa (05/2011) arvioitiin big datan
vuotuisen lisäarvo- ja kustannussäästöpotentiaalin
olleen jo vuonna 2011 arviolta 1 000 mrd €
15. © Ivorio 2013
Pääomasijoittajien sijoitukset big datayritykseen, Top 10
Yritys
Sijoitus (milj. $)
MongoDB
231 milj. $
Mu Sigma
208 milj. $
Cloudera
141 milj. $
Opera Solutions
114 milj. $
Hortonworks
98 milj. $
DataStax
83.7 milj. $
Guavus
75.5 milj. $
GoodData
75.5 milj. $
Talend
61.6 milj. $
CouchBase
56.0 milj. $
16. © Ivorio 2013
Koska big data -hankkeet aloitetaan
Suomessa?
Julkishallinnon organisaatiot
“Big data -selvitys, 09/2013”
17. © Ivorio 2013
“
McKinsey, 2011:
By 2018, the United States alone
could face a shortage of 140,000
to 190,000 people with deep
analytical skills.
18. © Ivorio 2013
Big datan teknologiat
● Hadoop (tunnetuin yksittäinen uusi teknologia)
● Appliancet (valmisratkaisut)
● In-memory -analytics, NoSQL (muotiteknologioita)
● Pilvipalvelut ja big data
○
○
○
○
○
Amazon
Google
Microsoft
IBM
jne...
(Elastic MapReduce...)
(BigQuery...)
(HDInsight...)
(SoftLayer...)
19. Hadoop - big datan tunnetuin teknologia
Google-haun “big data” suosio 1.11.2013 asti
Google-haun “hadoop” suosio 1.11.2013 asti
21. Hadoop - innoittajana Google
Googlen
julkaisu
Vuosi
Avoimen
lähdekoodin
projekti
Vuosi
Mihin tarkoitukseen?
GFS ja
MapReduce
2004 Hadoop
2006
Datan tallentaminen ja
analysointi (klusteri)
Sawzall
2005 Pig ja Hive
2008
Massa-analytiikka
BigTable
2006 HBase
2008
Avain-arvopari -tietokanta
(NoSQL)
Pregel
2010
Giraph
2011
Graph-tietokanta
Dremel / F1
2010
Cloudera
Impala
2012
Nopeat kyselyt
(SQL)
Spanner
2012
?
????
Transaktiot
22. Googlen MapReduce -patentteja
Patentti
Teknologia, johon liityyy
US 8,123,909
MapReduce
US 7,756,919
MapReduce
US 7,650,331
MapReduce
US 2012/0278323
MapReduce
US 2012/0254193
MapReduce
US 2012/0215787
MapReduce
US 2012/0122065
MapReduce
PCT/US2012/030941
MapReduce
PCT/US2012/030897
MapReduce
23. Open Patent Non-Assertion Pledge
Google lupaa olla hyödyntämättä patentteja tai estämästä niiden kattaman teknologian käyttöä
Google promises to each person or entity that develops, distributes or uses
Free or Open Source Software (a “Pledge Recipient”) that Google will not bring
a lawsuit or other legal proceeding against a Pledge Recipient for patent
infringement under any Pledged Patents based...
26. Mitä Hadoop tekee?
Hadoop auttaa rakentamaan klusterin palvelimista
Miksi haluaisin Hadoop-klusterin?
- edullista tallennustilaa
- tehokasta prosessointia
- toimintavarmuutta
- skaalautuvuutta
- ekosysteemi, lisäosia ja laajennoksia!
27. © Ivorio 2013
Tiedon rakenteisuus
Hadoopin asema big data -ilmiössä
Nearly all sectors in the US
economy had at least an
average of 200 terabytes of
stored data per company with
more than 1,000 employees.
McKinsey 2011
Hadoop
By 2015, 65 percent of packaged
analytic applications with
advanced analytics will come
embedded with Hadoop.
Gartner 2013
1 Gb
2 Tb
20 Tb
200 Tb
Tiedon määrä
28. © Ivorio 2013
Hadoop Suomessa
Käyttäjiä lähitulevaisuudessa
Käyttäjiä
v. 2013 mm.
Vähittäiskauppa
Rovio
Sanoma
Supercell
Media
Palvelualat
Telekommunikaatio
Teollisuus
31. © Ivorio 2013
Amazon, Google, Microsoft
Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä?
Dataa yht.
Amazon (S3)
Google Storage
Microsoft Azure
Storage
< 1 TB
0.095 $
0.085 $
0.095 $
< 50 TB
0.080 $
0.076 $
0.080 $
< 500 TB
0.070 $
0.063 $
0.070 $
< 1000 TB
0.065 $
0.063 $
0.065 $
< 5000 TB
0.060 $
0.054 $
0.055 $
Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa!
33. © Ivorio 2013
Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
MapR (Hadoop-jakeluyritys):
“Benchmark broke the one minute barrier with 1,003 servers,
4,012 cores and 1,003 disks as compared to the previous
record set by Yahoo. The prior documented record of 62
seconds was set by Yahoo running Apache Hadoop on 1,460
servers, 11,680 cores and 5,840 disks.”
Mitä maailmanennätys maksoi?
34. © Ivorio 2013
Datan analysoiminen pilvessä
Terasortin maailmanennätys Googlen pilvipalvelussa:
“Since the servers used in MapR’s world record were
virtually instantiated in the Cloud, the cost estimate for
running the TeraSort was about $9 compared to the over
$5M estimate to run the previous record.”
Tästä on kysymys:
$9
vs.
$ 5 000 000
joustavuudesta!
36. © Ivorio 2013
Googlen tutkimus- ja tuotekehitysmenot
Vuosi
Investoinnit tutkimus- ja tuotekehitykseen
2013
7 900 milj. $
(arvio Q3-lukujen perusteella)
2012
6 800 milj. $
...
…
2004
226 milj. $
2003
91 milj. $
2002
32 milj. $
2001
17 milj. $
2000
11 milj.$
37. © Ivorio 2013
Esimerkkejä luvuista: Amazon ja Google
Nettoinvestoinnit teknologiaan v. 2012 (palvelimet yms.)
Yritys
Nettoinvestoinnit
Taserivi
Liikevaihto
Amazon 1 655 milj. $
Technology and
content
+ 13 016 milj. $
Google
Information
technology assets
+ 8 134 milj. $*
1 657 milj. $
*) Motorola-kauppaa ei mukana tässä
“Investoinnit ovat suuria, mutta liiketoiminnan kasvu monin
verroin suurempi. Palvelinkeskukset ovat databisneksen raakaainetta, bulkkia.”
39. © Ivorio 2013
Big dataa arkipäivässä
● Hakukoneet
○ Google on maailman johtava big data -yritys
● Suositukset
○ Amazon, Spotify, YouTube, Netflix
● Mainonta
○ Google AdSense, Facebook
41. © Ivorio 2013
Keskosten tarkkailu
● Hengenvaarallisten tulehdusten riski korkea
● Monipuolisen tilastoinnin ja analysoinnin myötä
tunnistetaan tulevat ongelmat jo vuorokautta
aikaisemmin -> reagoidaan, valmistaudutaan
● Toronto’s Hospital for Sick Children, University
of Ontario, IBM
42. © Ivorio 2013
Ennakoiva huolto
● Koneiden, laitteiden, ajoneuvojen sensorista
dataa ja vikatilastoja yhdistellään
● Analytiikka tunnistaa toistuvia tapahtumia,
korrelaatioita datan ja vikaantumisen välillä
● Huollot voidaan ennakoida ennen suurempien
vahinkojen syntymistä
● Vältetään odottamattomia keskeytyksiä
prosesseissa
43. © Ivorio 2013
Big Cities, Big Challenges
● Chicago, rikosten ennakointi analysoimalla
tilastoja, hätäpuheluja, videokuvaa
● New York, paloturvallisuusriskien tunnistaminen
vuokrakiinteistöistä tilastojen avulla
● Liikenneonnettomuudet, ruuhkat, ennakoiva
terveydenhuolto, petosten tunnistaminen,
mielipideanalyysit ...
45. © Ivorio 2013
Microsoft PowerPivot Excel plug-in
“BI työkalupakki ja suuremmat taulukot ”
● Mukana Excel 2013 -tuotteessa
● Ilmainen laajennusosa Excel 2010 -tuotteeseen
46. © Ivorio 2013
PowerPivot: keskeiset piirteet
● Yhteen taulukkoon enemmän dataa, n. 1M ->
100M+
● Silti kaikki paikallisessa työasemassa
48. © Ivorio 2013
PowerPivot: keskeiset piirteet
● Työkaluja näkymien/BI työkalujen
rakentamiseksi, nopeasti ja ilman ohjelmointia > julkaistavissa mm. SharePointissa
● Keskeisenä laskennan apuvälineenä tutut pivottaulukot
49. © Ivorio 2013
PowerPivot: harjoitustyö osana kurssia
● Datan tuominen ulkopuolisesta lähteestä
● Mallin luominen
● Pivot-kyselyt
● Kuvataan tarkemmin luokkaharjoituksissa
51. © Ivorio 2013
BigQuery: keskeiset piirteet
● Pilvipalvelu, tuhansien palvelinten laskentateho
● Kokeiltavissa rajoitetusti (<100Gb/kk) ilmaiseksi,
vaatii kuitenkin Google-tilin
52. © Ivorio 2013
BigQuery: keskeiset piirteet
● SQL:n kaltainen kyselykieli
● Käyttöliittymät
○ Selain
○ Komentorivi
○ REST API
● Laskutus käytön perusteella