SlideShare une entreprise Scribd logo
1  sur  38
Wprowadzenie
do Cloud Analytics
Łukasz Grala
Architect Data Platform & Advanced Analytics & BI Solutions
Data Platform MVP
@Łukasz Grala – lukasz@tidk.pl
• Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK
• Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach
• Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów
• Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP
• Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych,
uczenie maszynowe)
• Prelegent na licznych konferencjach w kraju i na świecie
• Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…)
• Członek Polskiego Towarzystwa Informatycznego
• Członek i lider Polish SQL Server User Group (PLSSUG)
• Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
Overview
lukasz@tidk.pl
Data (Big Data)
• 72 hours of video are uploaded per minute on YouTube (1 terabyte
every 4 minutes)
• 500 terabytes of new data per day are ingested in Facebook
databases
• Sensors from a Boeing jet engine create 20 terabytes
of data every hour
• The proposed Square Kilometer Array telescope will generate “a few
Exabytes of data per day” (single beam)
lukasz@tidk.pl
Internet of Things (IoT)
lukasz@tidk.pl
Type of Analytics
lukasz@tidk.pl
New BI Solutions
ETL Tool
(SSIS, etc) EDW
(SQL Server, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Ingest (EL)
Original Data
Scale-out
Storage &
Compute
(HDFS, Blob Storage,
etc)
Transform & Load
Data Marts
Data Lake(s)
Dashboards
Apps
Streaming data
lukasz@tidk.pl
Dashboard
lukasz@tidk.pl
Mobile
lukasz@tidk.pl
lukasz@tidk.pl
Azure Data Lake Storage & Analytics
lukasz@tidk.pl
Analytics
Storage
HDInsight
(“managed clusters”)
Azure Data Lake Analytics
Azure Data Lake Storage
Azure Data Lake
lukasz@tidk.pl
WebHDFS
YARN
U-SQL
Analytics Service HDInsight
(managed Hadoop Clusters)
Analytics
Store
Azure Data Lake
Built on Apache YARN
Scales dynamically with the turn of a dial
Pay by the query
Supports Azure AD for access control, roles,
and integration with on-prem identity systems
Built with U-SQL to unify the benefits of SQL
with the power of C#
Processes data across Azure
Azure Data Lake Analytics Services
13
Work across all cloud data
Azure Data Lake
Analytics
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
Azure
Data Lake Store
SQL DB in an
Azure VM
lukasz@tidk.pl
Stream Analytics
lukasz@tidk.pl
Azure Stream Analytics
Point of
Service Devices
Self Checkout
Stations
Kiosks
Smart
Phones
Slates/
Tablets
PCs/
Laptops
Servers
Digital
Signs
Diagnostic
EquipmentRemote Medical
Monitors
Logic
Controllers
Specialized
DevicesThin
Clients
Handhelds
Security
POS
Terminals
Automation
Devices
Vending
Machines
Kinect
ATM
lukasz@tidk.pl
SELECT count(*), Topic FROM Tweets
GROUP BY Topic, TumblingWindow(second, 5)
Let’s count tweets by topic…
Stream Analytics Query Language
Built-in
Functions
Data Types
Query
Language
Elements
Time
Management
Group By - Windowing
TUMBLING WINDOW
HOPPING WINDOW
SLIDING WINDOW
Group By – Windowing - Tumbling
SELECT count(*), Topic FROM Tweets
GROUP BY Topic, TumblingWindow(second, 5)
TUMBLINGWINDOW ( timeunit , windowsize, [offsetsize] )
TUMBLINGWINDOW ( Duration( timeunit , windowsize ), [Offset(timeunit , offsetsize)] )
Group By – Windowing - Hoppingwindow
SELECT System.TimeStamp, Topic, COUNT(*)
FROM Tweets BY EntryTime
GROUP BY Topic, HoppingWindow(second, 10, 5)
HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] )
HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
lukasz@tidk.pl
Canonical Event-driven Scenario
Big Data - HDInsight
• HDInsight is a Hadoop-based service that brings 100% Apache
Hadoop solution running on the Microsoft Azure platform
• Based on the Hortonworks Data Platform (HDP)
• Scalable, on-demand service
lukasz@tidk.pl
HDInsight
lukasz@tidk.pl
Zepelin
HDInsight & SQL Server 2016
Query relational
and non-relational
data, on-premises
and in Azure
Apps
T-SQL query
SQL Server Hadoop
lukasz@tidk.pl
Advanced Analytics - Language and Tools
• Language R and Python
• Microsoft R Open, Microsoft R Server, R Services, CARN R, Revolution
• Mahout
• SparkR
• MLLib
• Azure Machine Learning
lukasz@tidk.pl
lukasz@tidk.pl
Machine Learning
Key Concept – Machine Learning
Data
Model
Parameters
Learning Prediction
Decision Making
Utility Function
lukasz@tidk.pl
Class Learning Problems
• Classification: Assign a category to each item (Chinese | French
| Indian | Italian | Japanese restaurant).
• Regression: Predict a real value for each item
(stock/currency value, temperature).
• Ranking: Order items according to some criterion
(web search results relevant to a user query).
• Clustering: Partition items into homogeneous groups
(clustering twitter posts by topic).
• Dimensionality reduction: Transform an initial representation of items
into a lower-dimensional representation while preserving some
properties (preprocessing of digital images).
lukasz@tidk.pl
Steps to Build Machine Learning Solution
lukasz@tidk.pl
Azure Machine Learning
lukasz@tidk.pl
Azure Machine Learning
lukasz@tidk.pl
Summary
• PowerBI
• Azure Data Lake Storage & Analytics
• Azure Stream Analytics
• Azure Machine Learning
• Azure HDInsight (Hadoop, Spark, Hbase, Storm + MLLib, Mahout,
SparkR…)
lukasz@tidk.pl
lukasz@tidk.pl
Question?
lukasz@tidk.pl
• 16-18 maj 2016
• Wrocław Centrum Konferencyjne
• 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji
• 600 uczestników + sponsorzy + prelegenci + organizatorzy
• Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni
• Premiera techniczna SQL Server 2016
sqlday.pl @sqlday
lukasz@tidk.pl
W tym warsztat Big Data Analytics – Łukasz Grala & Marcin Szeliga
Masterclass: Cloud Storage
23-25.05.2016, Warszawa
Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w
chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w
Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z
HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i
Hadoop, Wirtualne maszyny
Masterclass: Cloud Analytics
20-22.06.2016, Warszawa
Data Catalog, Data Factory, Data Lake, PowerBI i dane relacyjne w
chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych,
Analiza z baz danych dokumentowych i grafowych, Uczenie
maszynowe, Polybase w SQL Server 2016
Łukasz Grala
Data Platform MVP,
MCT, MCSE, MCSA,
MCITP, MCSA,
MCP, MTA
Łukasz o szkoleniach:
„Danych produkowanych jest
więcej niż kiedykolwiek, pochodzą
z sieci Internet, z portali społecznościowych, z
urządzeń. Bardzo duży rozwój Internetu Rzeczy
(IoT) ilość tych danych jeszcze bardziej
zwiększa. Dlatego przygotowaliśmy dwa
specjalne kursy Cloud Storage i Cloud Analytics,
przedstawiające mechanizmy składowania,
przetwarzania i analizy danych z
wykorzystaniem chmury.”
Big Data, BI, Analityka, SQL
Standard -25% na hasło TechStolicawww.hexcode.pl

Contenu connexe

En vedette

Partial List of Events Attended CC
Partial List of Events Attended CCPartial List of Events Attended CC
Partial List of Events Attended CC
Elizabeth Loudon
 
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
European School of Oncology
 
Doenças de comportamento alimentar
Doenças de comportamento alimentarDoenças de comportamento alimentar
Doenças de comportamento alimentar
e.ferreira
 
Inspector ,ElectroMechanical engineer resume rev.01
Inspector ,ElectroMechanical  engineer resume rev.01Inspector ,ElectroMechanical  engineer resume rev.01
Inspector ,ElectroMechanical engineer resume rev.01
yousef amrou
 

En vedette (20)

03-Institutional and Political Aspects of the French regime
03-Institutional and Political Aspects of the French regime03-Institutional and Political Aspects of the French regime
03-Institutional and Political Aspects of the French regime
 
Maltratoinfantil
MaltratoinfantilMaltratoinfantil
Maltratoinfantil
 
Rcreee regional renewable energy conference 2010 presentation of the policy a...
Rcreee regional renewable energy conference 2010 presentation of the policy a...Rcreee regional renewable energy conference 2010 presentation of the policy a...
Rcreee regional renewable energy conference 2010 presentation of the policy a...
 
Prgramme of activities fundamentals
Prgramme of activities  fundamentalsPrgramme of activities  fundamentals
Prgramme of activities fundamentals
 
Partial List of Events Attended CC
Partial List of Events Attended CCPartial List of Events Attended CC
Partial List of Events Attended CC
 
02-Canada in the World
02-Canada in the World02-Canada in the World
02-Canada in the World
 
Medición y análisis de pérdidas en las cadenas alimentarias en México
Medición y análisis de pérdidas en las cadenas alimentarias en MéxicoMedición y análisis de pérdidas en las cadenas alimentarias en México
Medición y análisis de pérdidas en las cadenas alimentarias en México
 
EDI Certifcate
EDI CertifcateEDI Certifcate
EDI Certifcate
 
DAD-IS project overview and future perspectives
DAD-IS project overview and future perspectives DAD-IS project overview and future perspectives
DAD-IS project overview and future perspectives
 
Portafolio Electronico
Portafolio ElectronicoPortafolio Electronico
Portafolio Electronico
 
La contaminación ambiental
La contaminación ambientalLa contaminación ambiental
La contaminación ambiental
 
Workshop on ee labels 2011 day 1 session 1 the need of ee labeling
Workshop on ee labels 2011 day 1 session 1 the need of ee labelingWorkshop on ee labels 2011 day 1 session 1 the need of ee labeling
Workshop on ee labels 2011 day 1 session 1 the need of ee labeling
 
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
Resultados del proyecto sobre recuperación de praderas degradadas y sostenibi...
 
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsightAnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
AnalyticsConf2016 - Zaawansowana analityka na platformie Azure HDInsight
 
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
Losses in Food Balance Sheets: Current Status, Imputation, and SDG 12.3
 
Chuyen hoa va can bang toan kiem (ag)
Chuyen hoa va can bang toan kiem (ag)Chuyen hoa va can bang toan kiem (ag)
Chuyen hoa va can bang toan kiem (ag)
 
Session3 re situation_in_libya
Session3 re situation_in_libyaSession3 re situation_in_libya
Session3 re situation_in_libya
 
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
Endoscopy in Gastrointestinal Oncology - Slide 7 - I. Oda - Chromoscopy, mana...
 
Doenças de comportamento alimentar
Doenças de comportamento alimentarDoenças de comportamento alimentar
Doenças de comportamento alimentar
 
Inspector ,ElectroMechanical engineer resume rev.01
Inspector ,ElectroMechanical  engineer resume rev.01Inspector ,ElectroMechanical  engineer resume rev.01
Inspector ,ElectroMechanical engineer resume rev.01
 

Similaire à 20160316 techstolica - cloudanalytics -tidk

Optymalizacja hostingu
Optymalizacja hostinguOptymalizacja hostingu
Optymalizacja hostingu
Divante
 
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
Tobias Koprowski
 
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
cieszak
 

Similaire à 20160316 techstolica - cloudanalytics -tidk (20)

Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
Elitmind @ 113. Spotkanie Data Community, Warszawa - Business Intelligence w ...
 
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
Elitmind @ SQLDay2018: Stream Analytics i Machine Learning – czy to dobrze do...
 
Citrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFACitrix NetScaler Gateway i Azure MFA
Citrix NetScaler Gateway i Azure MFA
 
Optymalizacja hostingu
Optymalizacja hostinguOptymalizacja hostingu
Optymalizacja hostingu
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
[PL] WDI22-Adrian Chodkowski - Azure SQL Skalowalna baza w świecie chmury.pptx
 
Wprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivotWprowadzenie do modelowania danych w PowerPivot
Wprowadzenie do modelowania danych w PowerPivot
 
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
1st Silesian Code Camp - Czy jesteśmy gotowi na SQL Azure?
 
Microsoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 rokuMicrosoft Business Intelligence w 2017 roku
Microsoft Business Intelligence w 2017 roku
 
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
GET.NET -  Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...GET.NET -  Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
GET.NET - Osiołkowi w żłobie dano, czyli o tym jak hostować aplikacje na Mic...
 
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
Olsztyński Dzień Informatyki - Chmura Azure dla specjalistów IT. Mamy się jej...
 
Co z czym i do czego w Microsoft Azure - poznajemy usługi
Co z czym i do czego w Microsoft Azure - poznajemy usługiCo z czym i do czego w Microsoft Azure - poznajemy usługi
Co z czym i do czego w Microsoft Azure - poznajemy usługi
 
Praca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives DataPraca naukowa i projekty komercyjne w 9 Lives Data
Praca naukowa i projekty komercyjne w 9 Lives Data
 
Projektowanie i programowanie aplikacji nowej generacji
Projektowanie i programowanie aplikacji nowej generacjiProjektowanie i programowanie aplikacji nowej generacji
Projektowanie i programowanie aplikacji nowej generacji
 
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLA
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLAWysoka Dostępność Windows Server 2008 w kontekscie umów SLA
Wysoka Dostępność Windows Server 2008 w kontekscie umów SLA
 
infraxstructure: Rafał Stańczak "Postępujący rozwój infrastruktury na potrze...
infraxstructure: Rafał Stańczak  "Postępujący rozwój infrastruktury na potrze...infraxstructure: Rafał Stańczak  "Postępujący rozwój infrastruktury na potrze...
infraxstructure: Rafał Stańczak "Postępujący rozwój infrastruktury na potrze...
 
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
PLNOG16: Nowe założenia dla zbieranie logów, statystyk i alertów, Maciej Kałk...
 
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
I Kongres eHandlu: Tomasz Wiśniewski - "Jak chmura Windows Azure może wspomóc...
 
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
PLNOG 17 - Maciej Flak - Cisco Cloud Networking - czyli kompletna infrastrukt...
 
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
SQL Day 2018 Building efficient and reliable Enterprise Reporting Platform wi...
 

Plus de Łukasz Grala

SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
Łukasz Grala
 
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
Łukasz Grala
 

Plus de Łukasz Grala (18)

Cognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from MicrosoftCognitive Toolkit - Deep Learning framework from Microsoft
Cognitive Toolkit - Deep Learning framework from Microsoft
 
DataMass Summit - Machine Learning for Big Data in SQL Server
DataMass Summit - Machine Learning for Big Data  in SQL ServerDataMass Summit - Machine Learning for Big Data  in SQL Server
DataMass Summit - Machine Learning for Big Data in SQL Server
 
WhyR? Analiza sentymentu
WhyR? Analiza sentymentuWhyR? Analiza sentymentu
WhyR? Analiza sentymentu
 
eRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability ReRum2016 -RevoScaleR - Performance and Scalability R
eRum2016 -RevoScaleR - Performance and Scalability R
 
AzureDay - Introduction Big Data Analytics.
AzureDay  - Introduction Big Data Analytics.AzureDay  - Introduction Big Data Analytics.
AzureDay - Introduction Big Data Analytics.
 
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
WyspaIT 2016 - Azure Stream Analytics i Azure Machine Learning w analizie str...
 
3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql3 CityNetConf - sql+c#=u-sql
3 CityNetConf - sql+c#=u-sql
 
20160317 - PAZUR - PowerBI & R
20160317  - PAZUR - PowerBI & R20160317  - PAZUR - PowerBI & R
20160317 - PAZUR - PowerBI & R
 
Prescriptive Analytics
Prescriptive AnalyticsPrescriptive Analytics
Prescriptive Analytics
 
DAC4B 2015 - Polybase
DAC4B 2015 - PolybaseDAC4B 2015 - Polybase
DAC4B 2015 - Polybase
 
Expert summit SQL Server 2016
Expert summit   SQL Server 2016Expert summit   SQL Server 2016
Expert summit SQL Server 2016
 
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
Nowy SQL Server 2012 – DENALI rewolucją w silnikach baz danych - Microsoft te...
 
Pre mts Sharepoint 2010 i SQL Server 2012
Pre mts   Sharepoint 2010 i SQL Server 2012Pre mts   Sharepoint 2010 i SQL Server 2012
Pre mts Sharepoint 2010 i SQL Server 2012
 
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
 
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz gralaSQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych  - łukasz grala
SQL Day 2011 - Modelowanie i zasilanie wymiarów hurtowni danych - łukasz grala
 
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas..."SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011-  Łukas...
"SharePoint 2010 a SQL Server" - Konferencja Time For SharePoint 2011- Łukas...
 
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCampReprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
Reprezentacja hierarchii w SQL Server 2008/2008R2 - 2nd Silesian CodeCamp
 
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości   Adm...
Łukasz Grala - WSKIZ 2009-04-07 It Academic - SQL Server 2008 - Nowości Adm...
 

20160316 techstolica - cloudanalytics -tidk

  • 1. Wprowadzenie do Cloud Analytics Łukasz Grala Architect Data Platform & Advanced Analytics & BI Solutions Data Platform MVP
  • 2. @Łukasz Grala – lukasz@tidk.pl • Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK • Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach • Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów • Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP • Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych, uczenie maszynowe) • Prelegent na licznych konferencjach w kraju i na świecie • Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…) • Członek Polskiego Towarzystwa Informatycznego • Członek i lider Polish SQL Server User Group (PLSSUG) • Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
  • 4. Data (Big Data) • 72 hours of video are uploaded per minute on YouTube (1 terabyte every 4 minutes) • 500 terabytes of new data per day are ingested in Facebook databases • Sensors from a Boeing jet engine create 20 terabytes of data every hour • The proposed Square Kilometer Array telescope will generate “a few Exabytes of data per day” (single beam) lukasz@tidk.pl
  • 5. Internet of Things (IoT) lukasz@tidk.pl
  • 7. New BI Solutions ETL Tool (SSIS, etc) EDW (SQL Server, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Ingest (EL) Original Data Scale-out Storage & Compute (HDFS, Blob Storage, etc) Transform & Load Data Marts Data Lake(s) Dashboards Apps Streaming data lukasz@tidk.pl
  • 10. lukasz@tidk.pl Azure Data Lake Storage & Analytics
  • 11. lukasz@tidk.pl Analytics Storage HDInsight (“managed clusters”) Azure Data Lake Analytics Azure Data Lake Storage Azure Data Lake
  • 12. lukasz@tidk.pl WebHDFS YARN U-SQL Analytics Service HDInsight (managed Hadoop Clusters) Analytics Store Azure Data Lake
  • 13. Built on Apache YARN Scales dynamically with the turn of a dial Pay by the query Supports Azure AD for access control, roles, and integration with on-prem identity systems Built with U-SQL to unify the benefits of SQL with the power of C# Processes data across Azure Azure Data Lake Analytics Services 13
  • 14. Work across all cloud data Azure Data Lake Analytics Azure SQL DW Azure SQL DB Azure Storage Blobs Azure Data Lake Store SQL DB in an Azure VM
  • 16. lukasz@tidk.pl Azure Stream Analytics Point of Service Devices Self Checkout Stations Kiosks Smart Phones Slates/ Tablets PCs/ Laptops Servers Digital Signs Diagnostic EquipmentRemote Medical Monitors Logic Controllers Specialized DevicesThin Clients Handhelds Security POS Terminals Automation Devices Vending Machines Kinect ATM
  • 17. lukasz@tidk.pl SELECT count(*), Topic FROM Tweets GROUP BY Topic, TumblingWindow(second, 5) Let’s count tweets by topic…
  • 18. Stream Analytics Query Language Built-in Functions Data Types Query Language Elements Time Management
  • 19. Group By - Windowing TUMBLING WINDOW HOPPING WINDOW SLIDING WINDOW
  • 20. Group By – Windowing - Tumbling SELECT count(*), Topic FROM Tweets GROUP BY Topic, TumblingWindow(second, 5) TUMBLINGWINDOW ( timeunit , windowsize, [offsetsize] ) TUMBLINGWINDOW ( Duration( timeunit , windowsize ), [Offset(timeunit , offsetsize)] )
  • 21. Group By – Windowing - Hoppingwindow SELECT System.TimeStamp, Topic, COUNT(*) FROM Tweets BY EntryTime GROUP BY Topic, HoppingWindow(second, 10, 5) HOPPINGWINDOW ( timeunit , windowsize , hopsize, [offsetsize] ) HOPPINGWINDOW ( Duration( timeunit , windowsize ) , Hop (timeunit , windowsize ), [Offset(timeunit , offsetsize)])
  • 23. Big Data - HDInsight • HDInsight is a Hadoop-based service that brings 100% Apache Hadoop solution running on the Microsoft Azure platform • Based on the Hortonworks Data Platform (HDP) • Scalable, on-demand service lukasz@tidk.pl
  • 26. HDInsight & SQL Server 2016 Query relational and non-relational data, on-premises and in Azure Apps T-SQL query SQL Server Hadoop lukasz@tidk.pl
  • 27. Advanced Analytics - Language and Tools • Language R and Python • Microsoft R Open, Microsoft R Server, R Services, CARN R, Revolution • Mahout • SparkR • MLLib • Azure Machine Learning lukasz@tidk.pl
  • 29. Key Concept – Machine Learning Data Model Parameters Learning Prediction Decision Making Utility Function lukasz@tidk.pl
  • 30. Class Learning Problems • Classification: Assign a category to each item (Chinese | French | Indian | Italian | Japanese restaurant). • Regression: Predict a real value for each item (stock/currency value, temperature). • Ranking: Order items according to some criterion (web search results relevant to a user query). • Clustering: Partition items into homogeneous groups (clustering twitter posts by topic). • Dimensionality reduction: Transform an initial representation of items into a lower-dimensional representation while preserving some properties (preprocessing of digital images). lukasz@tidk.pl
  • 31. Steps to Build Machine Learning Solution lukasz@tidk.pl
  • 34. Summary • PowerBI • Azure Data Lake Storage & Analytics • Azure Stream Analytics • Azure Machine Learning • Azure HDInsight (Hadoop, Spark, Hbase, Storm + MLLib, Mahout, SparkR…) lukasz@tidk.pl
  • 36. • 16-18 maj 2016 • Wrocław Centrum Konferencyjne • 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji • 600 uczestników + sponsorzy + prelegenci + organizatorzy • Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni • Premiera techniczna SQL Server 2016 sqlday.pl @sqlday lukasz@tidk.pl W tym warsztat Big Data Analytics – Łukasz Grala & Marcin Szeliga
  • 37.
  • 38. Masterclass: Cloud Storage 23-25.05.2016, Warszawa Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i Hadoop, Wirtualne maszyny Masterclass: Cloud Analytics 20-22.06.2016, Warszawa Data Catalog, Data Factory, Data Lake, PowerBI i dane relacyjne w chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych, Analiza z baz danych dokumentowych i grafowych, Uczenie maszynowe, Polybase w SQL Server 2016 Łukasz Grala Data Platform MVP, MCT, MCSE, MCSA, MCITP, MCSA, MCP, MTA Łukasz o szkoleniach: „Danych produkowanych jest więcej niż kiedykolwiek, pochodzą z sieci Internet, z portali społecznościowych, z urządzeń. Bardzo duży rozwój Internetu Rzeczy (IoT) ilość tych danych jeszcze bardziej zwiększa. Dlatego przygotowaliśmy dwa specjalne kursy Cloud Storage i Cloud Analytics, przedstawiające mechanizmy składowania, przetwarzania i analizy danych z wykorzystaniem chmury.” Big Data, BI, Analityka, SQL Standard -25% na hasło TechStolicawww.hexcode.pl

Notes de l'éditeur

  1. A new distributed analytics service Built on Apache YARN Dynamically scales Handles jobs of any scale instantly by simply setting the dial for how much power you need. You only pay for the cost of the query Supports Azure Active Directory for Access Control, Roles, Integration with on-premises identity systems It also includes U-SQL, a language that unifies the benefits of SQL with the expressive power of C# U-SQL’s scalable runtime processes data across multiple Azure data sources
  2. ADLA allows you to compute on data anywhere and a join data from multiple cloud sources.