Ce diaporama a bien été signalé.
Le téléchargement de votre SlideShare est en cours. ×

20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics

Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Publicité
Chargement dans…3
×

Consultez-les par la suite

1 sur 38 Publicité

Plus De Contenu Connexe

Les utilisateurs ont également aimé (19)

Similaire à 20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics (20)

Publicité

Plus par Łukasz Grala (20)

Publicité

20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics

  1. 1. Azure Data Lake Storage & Analytics
  2. 2. Łukasz Grala lukasz@tidk.pl ▷ Architekt rozwiązań Platformy Danych & Business Intelligence & Zaawansowanej Analityki w TIDK ▷ Certyfikowany trener Microsoft i wykładowca na wyższych uczelniach ▷ Autor zaawansowanych szkoleń i warsztatów, oraz licznych publikacji i webcastów ▷ Od 2010 roku wyróżniany nagrodą Microsoft Data Platform MVP ▷ Doktorant Politechnika Poznańska – Wydział Informatyki (obszar bazy danych, eksploracja danych, uczenie maszynowe) ▷ Prelegent na licznych konferencjach w kraju i na świecie ▷ Posiada liczne certyfikaty (MCT, MCSE, MCSA, MCITP,…) ▷ Członek Polskiego Towarzystwa Informatycznego ▷ Członek i lider Polish SQL Server User Group (PLSSUG) ▷ Pasjonat analizy, przechowywania i przetwarzania danych, miłośnik Jazzu
  3. 3. Agenda  Azure Data Lake Store  Azure Data Lake Analytics  Azure Data Lake Projects  Summary
  4. 4. Azure Data Lake
  5. 5. Azure Data Lake Store Overview Data Lake Storage
  6. 6. Data Lake Store A hyper scale repository for big data analytics workloads • No limits to SCALE • Store ANY DATA in its native format (csv, tcv, json tables, images,…) • HADOOP FILE SYSTEM (HDFS) for the cloud • ENTERPRISE READY access control, encryption at rest • Optimized for analytic workload PERFORMANCE
  7. 7. Data Lake Store Any Data • Unstructured • Semi-structured • Structured
  8. 8. Data Lake Storage  HDFS for the cloud  New filesystem build from the ground up, based on HADOOP file system  Integrates with HDInsight, Hortonworks and Cloudera  Performance-tuned for big data analytics  Supports Files and Folder objects and operations  Unlimited storage (Files size can be from GB to PB)
  9. 9. Data Lake Storage - Security  Integrates with Azure Active Directory  Audit logs for all operations  Server side Encryption  ACL on files and folders Enterprise ready security when in GA
  10. 10. Data Lake Storage – Filesystem  WebHDFS API, REST  Use: adl:// adl://<data_lake_store_name>.azuredatalakestore.net
  11. 11. Azure Data Lake
  12. 12. Azure Data Lake Analytics Overview Data Processing and U-SQL
  13. 13. Azure Data Lake Analytics A elastic analytics service built on Apache YARN that processes all data, at any size • No limits to SCALE • Includes U-SQL, a language that unifies the benefits of SQL with the expressive power of C# • Optimized to work with ADL STORE • FEDERATED QUERY across Azure data sources • ENTERPRISE READY Role based access control & Auditing • Pay PER JOB & Scale PER JOB
  14. 14. U-SQL A new language for Big Data • Familiar syntax to millions of SQL & .NET developers • Unifies declarative nature of SQL with the imperative power of C# • Unifies structured, semi-structured and unstructured data • Distributed query support over all data
  15. 15. U-SQL – Language Overview U-SQL Fundamentals • All the familiar SQL clauses SELECT | FROM | WHERE GROUP BY | JOIN | OVER • Operate on unstructured and structured data • Relational metadata objects .NET integration and extensibility • U-SQL expressions are full C# expressions • Reuse .NET code in your own assemblies • Use C# to define your own: Types | Functions | Joins | Aggregators | I/O (Extractors, Outputters)
  16. 16. U-SQL Capabilities Interactive Batch Streaming Machine Learning IN PROGRESS AVAILABLE NOW FUTURE FUTURE
  17. 17. U-SQL Distributed Query Azure Storage Blobs Azure Data Lake Store Azure SQL Database Azure SQL Data Warehouse Azure SQL DB in Azure VM READ READ READ READ READ WRITE WRITE WRITE WRITE WRITE
  18. 18. Sample @orders = EXTRACT OrderId int, Customer string, Date DateTime, Amount float FROM "/input/orders.txt" USING Extractors.Tsv(); OUTPUT @orders TO "/output/orders_copy.txt" USING Outputters.Tsv(); Apply Schema on read From a file in a Data Lake Easy delimited text handling Write out Rowset
  19. 19. ADLAUs Azure Data Lake Analytics Unit Parallelism N = N ADLAUs 1 ADLAU ~= A VM with 2 cores and 6 GB of memory
  20. 20. Azure Data Lake Analytics
  21. 21. Azure Data Lake Projects Portal Microsoft Azure, Visual Studio, PowerShell
  22. 22. Azure Data Lake Projects  Portal Microsoft Azure  Visual Studio  PowerShell
  23. 23. Portal Microsoft Azure
  24. 24. Demo Portal Azure
  25. 25. Visual Studio 2015
  26. 26. Visual Studio 2015
  27. 27. Visual Studio 2015
  28. 28. Demo Visual Studio & U-SQL
  29. 29. PowerShell
  30. 30. Azure Data Lake Storage Import-AzureRmDataLakeStoreItem -Account $adls -Path d:somefile.txt -Destination /somefile.txt Export-AzureRmDataLakeStoreItem -Account $adls -Path /somefile.txt -Destination d:somefile_copy.txt
  31. 31. Azure Data Lake Analytics Get-AzureRmDataLakeAnalyticsJob -Account $adla Submit-AzureRmDataLakeAnalyticsJob -Account $adla -Script “…” # U-SQL text -Name myjob Submit-AzureRmDataLakeAnalyticsJob -Account $adla -ScriptPath D:test.script -Name myjob
  32. 32. Azure Data Lake Store & Analytics Summary
  33. 33. Azure Data Lake Storage & Analytics
  34. 34. Azure Data Lake Storage & Analytics
  35. 35. Thanks! Any questions? You can find me at: @PowerPivotBlog ../in/LukaszGrala slideshare.net/LukaszGrala www.tidk.pl lukasz@tidk.pl Presentation template by SlidesCarnival
  36. 36. ▷ 16-18 maj 2016 ▷ Wrocław Centrum Konferencyjne ▷ 3 dni, 6 warsztatów, 4 ścieżki, ponad 30 prelegentów, 50 sesji ▷ 600 uczestników + sponsorzy + prelegenci + organizatorzy ▷ Goście między innymi z USA, Anglii, Niemiec, Ukrainy, Bułgarii, Słoweni ▷ Premiera techniczna SQL Server 2016 sqlday.pl @sqlday W tym warsztat Big Data Analytics – Łukasz Grala & Marcin Szeliga
  37. 37. Masterclass: Cloud Storage 23-25.05.2016, Warszawa Azure SQL Server i Azure SQL Database, Skalowanie bazy relacyjnej w chmurze, Hurtownia danych w chmurze PowerShell i bazy danych w Azure, Azure BLOB Storage, Bazy dokumentowe, Big Data z HDInsight, Hadoop, Apache Spark, Pozostałe komponenty HDInsight i Hadoop, Wirtualne maszyny Masterclass: Cloud Analytics 20-22.06.2016, Warszawa Data Catalog, Data Factory, Data Lake, PowerBI i dane relacyjne w chmurze, Hadoop, Apache Spark, Analiza danych strumieniowych, Analiza z baz danych dokumentowych i grafowych, Uczenie maszynowe, Polybase w SQL Server 2016 Łukasz Grala Data Platform MVP, MCT, MCSE, MCSA, MCITP, MCSA, MCP, MTA Łukasz o szkoleniach: „Danych produkowanych jest więcej niż kiedykolwiek, pochodzą z sieci Internet, z portali społecznościowych, z urządzeń. Bardzo duży rozwój Internetu Rzeczy (IoT) ilość tych danych jeszcze bardziej zwiększa. Dlatego przygotowaliśmy dwa specjalne kursy Cloud Storage i Cloud Analytics, przedstawiające mechanizmy składowania, przetwarzania i analizy danych z wykorzystaniem chmury.” Big Data, BI, Analityka, SQL Standard -25% na hasło AzureBootcampwww.hexcode.pl
  38. 38. GŁÓWNI PARTNERZY KONFERENCJI: PARTNERZY TECHNOLOGICZNI: PARTNERZY KONFERENCJI: PATRONI MEDIALNI:

×