DBP-020_いざ無制限のデータの彼方へ! ～Azure Data Lake 開発の知識とベストプラクティス～

• HDInsight は、本セッションでは扱いません

“Volume”
膨大
“Velocity”
スピード
“Variety”
多様性
社内の
資産
サーチや
ソーシャル
オープン
データ
コラボ可視化

レアルマドリード - デジタル技術の取り組み
レアルマドリードは、
スポーツ界随一の
プロスポーツチーム
(Forbes、2013 年および 2014 年)
… しかし、デジタルプレゼンスは
極めて限定的で、成長の余地がありました。
2015 年初頭、レアルマドリードは
デジタルによる変革を進めていくため、
Microsoft とテクノロジパートナーシップ契約
収入源
(出典: Deloitte)
チケットと会費
25%
その他
13%
TV 放映権
30%
マーケティングと
スポンサー
25%

ユーザーを理解していく…その意味・価値
店舗での
購入
試合の観戦者が
アプリを使用して
ソフトドリンクを購入
アプリのダウンロード
プロフィールの更新
チケットの購入
レアルマドリードの ID
レアルマドリードのファン、スマートフォンアプリのユーザー
Adidas が好き。
スポーツウェアのズボンを愛用
Facebook ユーザー ID
2015 年 9 月 10 日にスタジアムに行く予定
コカコーラが好き 2015 年 9 月 10 日に観戦
Cristiano Ronaldo が好き
Ronaldo が RM を退団する
ことを心配している
Facebook
への登録
ソーシャル
センチメント

データ量・形式
段階公開の状態データ形式
１段階 ★ オープンライセンスでデータを公開 PDF、JPG
２段階 ★★ コンピュータで処理可能なデータを公開 XLS、DOC
３段階 ★★★ オープンに利用できるフォーマットでデータを公開 XML、CSV
４段階 ★★★★ Web標準（RDF等）のフォーマットでデータを公開 RDF
５段階 ★★★★★ 他へのリンクを入れたデータ（LOD）を公開 Linked-RDF

ETL パイプライン
スキーマの定義
Relational
LOB
Applications
事前
事前
Schema-on-Write
直ちに必要でないデータは、全て捨てられるか、アーカイブされている

無限に保存分析結果の参照
あらゆるデータ
ソースからの
データ収集
実行時
全てのデータに価値がある: Schema-on-Read

本社
1GB/H
1GB/H
1GB/H
1GB/H
1GB/H
1GB/H
1GB/H
1GB/H
Compress
5GB/H
Uncompressed
Cube
Web File File DB

サービス名データの種類単位数値メモ
Azure Blob ファイルストレージアカウント 500 TB
Page Blob 1 TB
Azure Document
DB
JSON データベースアカウント 1 TB
ドキュメント 512 KB
SQL Database 構造化データデータベース 1 TB “P11”
SQL Data
Warehouse
構造化データデータベース 60 TB Public Preview後に
240TB まで増加予定

HDInsight Analytics Store
Hadoop as a Services
Big Data Query
as a Services
容量無制限
Raw Data
アクセスコントロール

HDInsight
Java, Eclipse, Hive, etc.
フルマネージドの
Hadoop クラスタ
Data Lake Analytics
C#, SQL & PowerShell
フルマネージドの
分散管理処理クラスタ
DryAd ベース

20
ADL Analytics Account
Links to ADL Stores
ADL Store Account
(the default one)
Job Queue
キーの設置:
- Max Concurrent Jobs
- Max ADLUs per Job
- Max Queue Length
Links to Azure Blob Stores
U-SQL Catalog
Metadata
U-SQL Catalog Data
ADLAU = Azure Data Lake Analytics Unit

ブロック (Extent)
Azure Data Lake Store file
…Block 1 Block 2 Block 2
Backend Storage
Data node Data node Data node Data node Data nodeData node
Block Block Block Block Block Block

Local
ADL Store
 Azure Portal
 Azure PowerShell
 Azure CLI
 Data Lake Tools for Visual Studio
 Azure Data Factory
 AdlCopy ツール
Azure Stream Analytics
Azure HDInsight Storm
Azure Data Factory
Apache Sqoop
 Apache DistCp
 Azure Data Factory
 AdlCopy ツール

https://www.microsoft.com/en-us/download/details.aspx?id=50358
<Blob source> <ADLS destination>
<Key for Blob account>
<ADLA account> <Number of Analytics units>
https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-store-copy-data-azure-storage-
blob/
<container_name> <storage_account_name>
<data_lake_store_account>
https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-store-copy-data-
wasb-distcp/

U-SQL
Query
Result
Query
Azure
Storage Blobs
Azure SQL
in VMs
Azure
SQL DB
Azure Data
Lake Analytics

REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DateTime,
Region string,
SitesVisited string,
PagesVisited string
FROM "swebhdfs://Logs/WebLogRecords.csv"
USING WebLogExtractor ();
@result = SELECT UserID,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO "swebhdfs://Logs/Results/top10.txt"
USING Outputter.Tsv();
U-SQL 最初の一歩
• 型定義は C# の型定義と同じ
• データをファイルから抽出・読み込み
するときに、スキーマが必要
Data Lake Store のファイル
独自形式を解析するカスタム関数
C# の関数
行セット:
（中間テーブル
の概念に近い）
TSV形式で読み取る関数

Interactive
Batch
Streaming
Machine Learning

Management
Operations
Java C++.NET Node.js
Data
Operations WebHDFS Client LibWebHDFS

Management
Operations
Java C++.NET Node.js
U-SQL
Extensibility

Management
Data Lake Analytics アカウント
Jobs
U-SQL job
Catalog
カタログ(メタデータ)
Management
Data Lake Store アカウント
File System
Upload, download, list, delete, rename,
append
(WebHDFS)
Analytics Store
Azure Active Directory

https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-
analytics-get-started-net-sdk/

https://azure.microsoft.com/ja-jp/documentation/articles/resource-group-create-
service-principal-portal/

一般的なパターン
処理読み込み保存
INSERT
OUTPUT
OUTPUT
SELECT…
FROM…
WHERE…
EXTRACT
EXTRACT
SELECT
SELECT
Azure
Data
Lake
Azure
Data
Lake
Azure
SQL
DB
Azure
Storage
Blobs
Azure
Storage
Blobs
RowSet RowSet

• 並列のジョブ
• 1つのジョブ
File Sets
• 統計情報

GZip ネイティブ対応!!!
@searchlog
EXTRACT int
DateTime
string
FROM "/Samples/Data/SearchLog.tsv.gz"
USING
https://msdn.microsoft.com/ja-jp/library/azure/mt621320.aspx

log_2015_10_01.txt
log_2015_10_02.txt
log_2015_10_03.txt
log_2015_10_04.txt
log_2015_10_05.txt
log_2015_10_06.txt
log_2015_10_07.txt
log_2015_10_08.txt
log_2015_10_09.txt
log_2015_10_10.txt
log_2015_10_11.txt

2015-10-01分
2015-10-02分
2015-10-03分
1つ
2015-10-01.txt
2015-10-02.txt
2015-10-03.txt
複数ファイル
ファイル全体の
作り直し
一部分だけ
作り直し

File Set
EXTRACT
user string,
id string,
suffix string,
FROM
"/input/{suffix:*}"
USING Extractors.Csv();

File Set: datetimes の使用
EXTRACT
user string,
id string,
date DateTime,
FROM
"/input/{date:yyyy}/{date:MM}/{date:dd}"
USING Extractors.Csv();

そして、TABLE の作成
CREATE TABLE SampleDBTutorials.dbo.ClickData
(
SessionId int,
Domain string,
Clinks int,
INDEX idx1 //Name of index
CLUSTERED (Domain ASC)
PARTITIONED BY HASH (Domain)
);
INSERT INTO SampleDBTutorials.dbo.ClickData
SELECT *
FROM @clickdata;
ドメインごとにパーティション分割
Domain1 Domain2 Domain3
Facebook.com Twitter.com Microsoft.com

クラスタ化インデックスによる効率的な処理
Full agg
Region ごとにクラスタ化されたテーブル
Read Read Read Read
Full agg Full agg Partial agg Partial agg
Extent 1 Extent 2 Extent 3 Extent 4
Sort Sort
Top 100 Top 100 Sort
Top 100
Top 100
Read Read Read Read
非構造化データ
Partial agg Partial agg Partial agg Partial agg
Full agg Full agg Full agg
Sort Sort Sort
Top 100 Top 100 Top 100
Extent 1 Extent 2 Extent 3 Extent 4
Partition Partition Partition Partition
@rs1 =
SELECT Region,
COUNT() AS Total
FROM @rs
GROUP BY Region;
@rs2 =
SELECT TOP 100
Region, Total
FROM @rs1
ORDER BY Total;
高コストな処理

Job Front End
Job Scheduler Compiler Service
Job Queue
Job Manager
U-SQL Catalog
YARN
Job 投入
Job 実行
U-SQL Runtime vertex 実行

U-SQL C# user code
C++ system code
Algebra
other files
(system files, deployed resources)
managed dll
Unmanaged dll
Input
script
Compilation output (in job folder)
Files
Meta
Data
Service
Deployed to vertices
Compiler & Optimizer

ジョブはVertexに分割
Vertex が実行単位
Input
Output
Output
6 ステージ
8 Vertex
Vertexはステージに展開
– 同じステージのVertexは、
同じ処理をする
– 前段階のステージのVertexに
依存する
– 1つのVertexのジョブ実行は5時間まで
acyclic graph （循環のないグラフ)

Preparing
Queued
Running
Finalizing
Ended
(Succeeded, Failed,
Cancelled)
New
Compiling
Queued
Scheduling
Starting
Running
Ended
画面上
状態
ADLAU の
空を確認

本社
1GB/H
1GB/H
Web Data Lake

https://github.com/dahatake/Azure-Data-Lake-Samples

https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-store-get-started-portal/
https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-store-integrate-with-other-
services/
https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-analytics-analyze-weblogs/
https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-analytics-data-lake-tools-get-
started/
https://azure.microsoft.com/ja-jp/documentation/articles/data-lake-analytics-u-sql-get-started/
https://blogs.msdn.microsoft.com/azuredatalake/

スケールに制限なし
全てのデータの種類を
そのネイティブフォーマットで保存
クラウド上でのWebHDFS
企業利用のためのセキュリティ、
アクセス制御、暗号化など
分析用に最適化
Azure Data Lake
Store
Big Data 分析のための
ハイパースケールな
データリポジトリ

ロールベース・アクセス
個々のファイルとディレクトリは、
オーナーとグループに紐づく
ファイル、ディレクトリは、オーナー、グループの
メンバー、他のユーザーに対して、
read(r), write(w), execute(x)の
パーミッションを持つ
きめ細かなACLs（アクセス管理リスト）の
ルールにより、ユーザー名やグループ名を
指定して管理ができる

Map reduce
Hbase
トランザクション
HDFS アプリケーションHive クエリ
Azure HDInsight
Hadoop WebHDFS クライアント
Hadoop WebHDFS クライアント
WebHDFS
エンドポイント
WebHDFS
REST API
WebHDFS
REST API
ADL Store file ADL Store file ADL Store file ADL Store fileADL Store file
Azure Data Lake Store

スケールに制限なし
U-SQL, SQLのメリットにC#のパワーを加えた新しい言語
Data Lake Store に最適化
Azure データサービスへの FEDERATED QUERY
企業利用のためのセキュリティ、
アクセス制御、暗号化など
ジョブ単位での課金とスケール設定
Azure Data Lake
Analytics
全てのどんなサイズのデータ
でも処理できる
Apache YARNベースの
分析サービス

多くの SQL & .NET DEVELOPERS
宣言型言語の SQL と
逐次実行型である C# のパワーを融合
構造化、一部構造化、非構造化データの融合
全てのデータに分散クエリの実施
U-SQL
Big Data のための新しい言語

https://msdn.microsoft.com/ja-jp/library/azure/mt591959.aspx

TABLEオブジェクトを返す関数
U-SQL の記述を含む（OUTPUT と
DDL/DMLを除く）
利点:
– コードの冗長性排除
– 再利用
– スクリプトの管理しやすさ
//create the TVF
DROP FUNCTION IF EXISTS SearchLogView; //DDL statement
CREATE FUNCTION WebLogView ( )
RETURNS @result TABLE (
UserId int, Start DateTime, End DateTime, Region string,
SiteVisited string, PagesVisited string
)
AS BEGIN
@result =
EXTRACT
UserId int, Start DateTime, End DateTime, Region
string,
SiteVisited string, PagesVisited string
FROM “swebhdfs://Logs/WebRecords.txt"
USING WebLogExtractor();
RETURN;
END;
//now use the TVF
@searchlog = WebLogView();
OUTPUT @searchlog TO “swebhdfs://Logs/WebRecords_copy.tsv"
USING Outputters.Tsv();

–
–
67
[SqlUserDefinedExtractor]
public class DriverExtractor : IExtractor
{
private byte[] _row_delim;
private string _col_delim;
private Encoding _encoding;
// Define a non-default constructor since I want to pass in my own parameters
public DriverExtractor( string row_delim = "¥r¥n", string col_delim = ",“
, Encoding encoding = null )
{
_encoding = encoding == null ? Encoding.UTF8 : encoding;
_row_delim = _encoding.GetBytes(row_delim);
_col_delim = col_delim;
} // DriverExtractor
// Converting text to target schema
private void OutputValueAtCol_I(string c, int i, IUpdatableRow outputrow)
{
var schema = outputrow.Schema;
if (schema[i].Type == typeof(int))
{
var tmp = Convert.ToInt32(c);
outputrow.Set(i, tmp);
}
...
} //SerializeCol
public override IEnumerable<IRow> Extract( IUnstructuredReader input
, IUpdatableRow outputrow)
{
foreach (var row in input.Split(_row_delim))
{
using(var s = new StreamReader(row, _encoding))
{
int i = 0;
foreach (var c in s.ReadToEnd().Split(new[] { _col_delim }, StringSplitOptions.None))
{
OutputValueAtCol_I(c, i++, outputrow);
} // foreach
} // using
yield return outputrow.AsReadOnly();
} // foreach
} // Extract
} // class DriverExtractor

ファイル読み書きの肝。Extractors と Outputters
@searchlog
EXTRACT int
DateTime
string
FROM "/Samples/Data/SearchLog.tsv"
USING
OUTPUT @searchlog
TO "/output/SearchLogResult1.csv"
USING

独自の形式のファイルの読み込み
アセンブリをアップ
ロード・登録
2
CREATE ASSEMBLY WebLogExtAsm
FROM @”/WebLogExtAsm.dll"
WITH PERMISSION_SET =
RESTRICTED;
CREATE EXTRACTOR
WebLogExtractor EXTERNAL NAME
WebLogExtractor;
IExtractor Interfaceを
実装する
using
Microsoft.SCOPE.Interfaces;
public
WebLogExtractor:IExtractor
{
public override
IEnumerable<IRow>
Extract(…)
{
…
}
…
}
1
REFERENCE ASSEMBLY
WebLogExtAsm;
//ビルトイン抽出関数のように使
える
SELECT * FROM
@“swebhdfs://Logs/WebRecords.
txt”
アセンブリを参照
3

集合関数もある!
@tmp1 = SELECT Region, (End.Subtract(Start)).TotalSeconds
AS Duration FROM @rs;
@rs1 = SELECT
COUNT() AS NumUsers,
Region,
SUM (Duration) AS TotalDuration,
AVG (Duration) AS AvgDuration,
MAX (Duration) AS MaxDuration,
MIN (Duration) AS MinDuration
FROM @tmp1
GROUP BY Region;

TABLE 作成後の操作
CREATE CLUSTERED INDEX ON
ASC PARTITIONED BY HASH
CREATE STATISTICS IF NOT EXISTS ON
WITH FULLSCAN
View Functions Procedure

行セットの連結
 LEFT OUTER JOIN
 LEFT INNER JOIN
 RIGHT INNER JOIN
 RIGHT OUTER JOIN
 FULL OUTER JOIN
 CROSS JOIN
 LEFT SEMI JOIN
 RIGHT SEMI JOIN
 EXCEPT ALL
 EXCEPT DISTINCT
 INTERSECT ALL
 INTERSECT DISTINCT
 UNION ALL
 UNION DISTINCT

SQL Database に直接アクセス
CREATE CREDENTIAL IF NOT EXISTS dahatakeAdmin
WITH USER_NAME ="dahatake", IDENTITY =
"dahatakeSec";
CREATE DATA SOURCE IF NOT EXISTS pubsSource
FROM AZURESQLDB
WITH
(
PROVIDER_STRING = "Initial
Catalog=pubs;Encrypt=True",
CREDENTIAL = dahatakeAdmin
);
@result = SELECT * FROM EXTERNAL pubsSource
EXECUTE @"SELECT * FROM dbo.employee";
OUTPUT @result TO "/output/employee.csv"
USING Outputters.Csv();
Install-Module AzureRM
Install-AzureRM
Login-AzureRmAccount
Get-AzureRmSubscription
Set-AzureRmContext -SubscriptionId
“<subscription ID>"
$passwd = ConvertTo-SecureString “<password>" -
AsPlainText -Force
$mysecret = New-Object
System.Management.Automation.PSCredential("daha
takeSec", $passwd)
New-AzureRmDataLakeAnalyticsCatalogSecret -
DatabaseName "master" -AccountName
"dahatakeadla" -Secret $mysecret
-Host "dahatakesql.database.windows.net" -Port
1433
資格情報オブジェクト: https://msdn.microsoft.com/ja-jp/library/azure/mt621327.aspx

パフォーマンス改善
<><><><>
<><><><>
<><><><>
<><><><>
<><><><>
<><><><>
Extent 1
Region = “en-us”
<><><><>
<><><><>
<><><><>
<><><><>
<><><><>
<><><><>
Extent 2
Region = “en-gb”
<><><><>
<><><><>
<><><><>
<><><><>
<><><><>
<><><><>
Extent 3
Region = “en-fr”CREATE TABLE
LogRecordsTable
(UserId int,
Start DateTime,
Region string,
INDEX idx CLUSTERED
(Region ASC)
PARTITIONED BY HASH
(Region));
インサート時に、
“Region” カラムに基づ
き、３つの範囲に渡って
ハッシュ分散される
INSERT INTO LogRecordsTable
SELECT UserId, Start, End, Region FROM @rs
パーティションが
分かれている
@rs = SELECT * FROM LogRecordsTable
WHERE Region == “en-gb”
1
2
3

税捜査官を50人派遣して、
税の監査をする。１つの州
に一人
Wyoming 州の検査官はす
ぐに仕事が終わる
California州、New York州、
Texas州の検査官はなかな
か終わらない
この事例の偏りは自然
0
5,000,000
10,000,000
15,000,000
20,000,000
25,000,000
30,000,000
35,000,000
40,000,000
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49
51
州ごとの人口

自然な偏りの他に、クエリが同じ問題を
引き起こすことがある（データは均等に
分散していても）
この例では、データ分散のためのキーを
“low distinctness key” と呼ぶ
大量の
入力
Vertex 0 Vertex 1
性別=男性別=女

現在の行の代わりに複数の行から算出される値（“OVER” 句で指定）
以下の一連のクエリは、中間の行セットの @irs を必要とする
User Id Region Duration
A$A892 en-us 10500
HG54#A en-us 22270
YSD78@ en-us 38790
JADI899 en-gb 18780
YCPB(%U en-gb 17000
BHPY687 en-gb 16700
BGFSWQ en-bs 57750
BSD805 en-fr 15675
BSDYTH7 en-fr 10250
@rs =
EXTRACT
UserID string,
Start DateTime,
End DateTime,
Region string,
SitesVisited string,
PagesVisited string
FROM "swebhdfs://Logs/WebLogRecords.txt"
@irs = SELECT UserID, Region,
(End.Subtract(Start)).TotalSeconds AS Duration
FROM @rs;
WebLogRecords.txt
Azure Data Lake

1
[SUM = 207715]
UserId Region Duration
A$A892 en-us 10500
HG54#A en-us 22270
YSD78@ en-us 38790
JADI899 en-gb 18780
YCPB(%U en-gb 17000
BHPY687 en-gb 16700
BGFSWQ en-bs 57750
BSD805 en-fr 15675
BSDYTH7 en-fr 10250
UserId TotalDuration
A$A892 207715
HG54#A 207715
YSD78@ 207715
JADI899 207715
YCPB(%U 207715
BHPY687 207715
BGFSWQ 207715
BSD805 207715
BSDYTH7 207715
全行のウィンドウを通じて
期間をサマリーする
@result =
SELECT UserID, SUM(Duration)
OVER() AS TotalDuration
FROM @irs;
@irs @result
ユーザーIDと、ウェブサイトにおける全ユーザーの滞在時間の総計をリストする
Query 5

2
A$A892 en-us 10500
HG54#A en-us 22270
YSD78@ en-us 38790
JADI899 en-gb 18780
YCPB(%U en-gb 17000
BHPY687 en-gb 16700
BGFSWQ en-bs 57750
BSD805 en-fr 15675
BSDYTH7 en-fr 10250
UserId Region RegionTotal
A$A892 en-us 71560
HG54#A en-us 71569
YSD78@ en-us 71560
JADI899 en-gb 52480
YCPB(%U en-gb 52480
BHPY687 en-gb 52480
BGFSWQ en-bs 57750
BSD805 en-fr 25925
BSDYTH7 en-fr 25925
@irs @total2
@total2 =
SELECT UserId, Region, SUM(Duration)
OVER( PARTITION BY Region)
AS RegionTotal FROM @irs;
リージョンのウィンドウを通じて
期間をサマリーする
ユーザーIDと、リージョンとリージョンごとのウェブサイトにおける滞在時間の総計をリストする
Query 6

aggregations
A$A892 en-us 10500
HG54#A en-us 22270
YSD78@ en-us 38790
JADI899 en-gb 18780
YCPB(%U en-gb 17000
BHPY687 en-gb 16700
BGFSWQ en-bs 57750
BSD805 en-fr 15675
BSDYTH7 en-fr 10250
UserId Region CountByRegion
A$A892 en-us 3
HG54#A en-us 3
YSD78@ en-us 3
JADI899 en-gb 3
YCPB(%U en-gb 3
BHPY687 en-gb 3
BGFSWQ en-bs 1
BSD805 en-fr 2
BSDYTH7 en-fr 2
@irs @result
リージョンごとのユーザー数をカウントする
@result =
SELECT UserId, Region,
COUNT(*)
OVER( PARTITION BY Region) AS
CountByRegion
FROM @irs;
リージョンごとのユーザー数のリストする
Query 7

ランキング
A$A892 en-us 10500
HG54#A en-us 22270
YSD78@ en-us 38790
JADI899 en-gb 18780
YCPB(%U en-gb 17000
BHPY687 en-gb 16700
BGFSWQ en-bs 57750
BSD805 en-fr 15675
BSDYTH7 en-fr 10250
UserId Region Rank
YSD78@ en-us 1
HG54#A en-us 2
JADI899 en-gb 1
YCPB(%U en-gb 2
BGFSWQ en-bs 1
BSD805 en-fr 1
BSDYTH7 en-fr 2
@irs @result
@result =
SELECT UserId, Region,
ROW_NUMBER()OVER(PARTITION BY Vertical
ORDER BY Duration) AS Rank
FROM @irs GROUP BY Region
HAVING RowNumber <= 2;
各リージョンで最も滞在時間の長いユーザー２人を見つける
Query 8

1 2 3 4 5 6 7 8 36
全ての行は一つのVertexへ

1 2 3
6
4 5 6 7 8
36
15 15
データは複数のVertexに送ることができる

// THIS CODE IS SCOPE -> NEEDS TO BE UPDATED TO U-SQL
public class SampleNonRecursiveReducer: Reducer
{
public override bool IsRecursive { get { return true; } }
public override Schema Produces(string[] columns, string[] args, Schema input)
{
…
}
public override IEnumerable<Row> Reduce(RowSet input, Row output, string[] args)
{
…
}
}
#ENDCS

Distributed data reduction
SELECT Gender, SUM(…) AS Result
FROM HugeInput
GROUP BY Gender;
This job will succeeded even if the input is huge.
• But not all Reducers Can be recursive
− Median
− Percentile

U-SQL は行セットを必要とする
SELECT a FROM @input

Script 内で行セットを再定義できる

U-SQL キーワードは大文字
Select from

U-SQL のラベルは2文字以上
AB

サブクエリーはサポートされていない

IN はリテラルでのみ使える
SELECT <something>

カスタムの集合関数が使える
AGG<MyAgg>( Income ) As TotalIncome

最初の N 行の取得
FETCH FIRST 10 ROWS
TOP 10

DBP-020_いざ無制限のデータの彼方へ! ～Azure Data Lake 開発の知識とベストプラクティス～

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à DBP-020_いざ無制限のデータの彼方へ! ～Azure Data Lake 開発の知識とベストプラクティス～

Similaire à DBP-020_いざ無制限のデータの彼方へ! ～Azure Data Lake 開発の知識とベストプラクティス～ (20)

Plus de decode2016

Plus de decode2016 (20)

Dernier

Dernier (9)

DBP-020_いざ無制限のデータの彼方へ! ～Azure Data Lake 開発の知識とベストプラクティス～