26. Azure Data Lake Store file
…Block 1 Block 2 Block 2
Backend Storage
Data node Data node Data node Data node Data nodeData node
Block Block Block Block Block Block
パフォーマンス
32. Azure Data Lake Store
Azure Storage Blob
外部表Azure SQL
Data Warehouse
33.
34. 従来型の処理・分析 Azure Data Lake を中心とした処理・分析
Business
apps
Custom
apps
Sensors
and devices
ADL Store
People
非構造化データも
含めてあらゆる
データを格納
Azure SQL
DW
Azure AD
Power BI
ADF
ADL
Analytics
• 処理・分析業務の大半はデータ準備作業が占める
• 処理・分析業務に手間・時間が必要
Business
apps
Custom
apps
Sensors
and devices
HDInsight
ユーザー管理、認証
データの連携
Power BI
File System
Database
Database
Hadoop
DWH
Data Mart
35.
36.
37.
38. HDInsight
開発者は OSS に馴染んでいる:
Java, Eclipse, Hive, etc.
マネージド Hadoop クラスタ
において、カスタマイズ・管理
が可能で、フレキシビリティが
ある
Azure Data Lake Analytics
C#, SQL & PowerShell のスキ
ル・経験を活かせる
利便性、効率性、自動スケール、
ジョブ実行の仕組みが提供され
る
41. REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DateTime,
Region string,
SitesVisited string,
PagesVisited string
FROM “/Logs/WebLogRecords.txt”
USING WebLogExtractor ();
@result = SELECT UserID,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO “/Logs/Results/top10.tsv"
USING Outputter.Tsv();
• 型定義は C# の型定義と同じ
• データをファイルから抽出・読み込み
するときに、スキーマが必要
Data Lake Store 内 のファイル
独自形式を解析するカスタム関数
C# の関数
行セット:
(中間テーブルの
概念に近い)
TSV形式で書き込む関数