32. 外部データソース(コンテナ毎に作成)
外部ファイル フォーマット(ファイルフォーマット毎に作成)
CREATE EXTERNAL DATA SOURCE container80third
WITH ( TYPE = Hadoop,
LOCATION = 'wasbs://container@xxxxx.blob.core.windows.net/',
CREDENTIAL = testcredential);
CREATE EXTERNAL FILE FORMAT polyformat
WITH ( FORMAT_TYPE = DELIMITEDTEXT,
FORMAT_OPTIONS ( FIELD_TERMINATOR = ',',
DATE_FORMAT = 'yyyy-MM-dd HH:mm:ss.ffffff',
USE_TYPE_DEFAULT = FALSE ));
Blob URL 情報
33. 外部表の作成
CREATE EXTERNAL TABLE [pol].[load_poly80third]
(
[出力日時] [datetime2](6) NOT NULL,
[出力年] [nvarchar](4) NOT NULL,
[出力月] [nvarchar](2) NOT NULL,
[出力日] [nvarchar](2) NOT NULL,
…
(中略)
…
)
WITH
( LOCATION='/',
DATA_SOURCE = container80third,
FILE_FORMAT = polyformat,
REJECT_TYPE = VALUE,
REJECT_VALUE = 0 );
コンテナパス情報
34. ハッシュ
Stor 1 Stor 2 Stor 3 Stor 4 Stor 5 Stor 1 Stor 2 Stor 3 Stor 4 Stor 5
クラスタ化カラムストアインデックスは既定で作成される
ロードするデータのキー値
6, 17, 23, 27, 33, 34,
51, 55, 65, 74 ・・・
ストレージの配置数が5と仮定した場合の例(実際は60)
35. ハッシュ ディストリビューション
ラウンドロビン ディストリビューション
ヒープ+ラウンドロビン
CREATE TABLE [dbo].[load_poly1] WITH(DISTRIBUTION = HASH([ログ番号])) AS
SELECT * FROM [pol].[load_poly] OPTION (LABEL = 'CTAS1');
CREATE TABLE [dbo].[load_poly2] WITH(DISTRIBUTION = ROUND_ROBIN) AS
SELECT * FROM [pol].[load_poly] OPTION (LABEL = 'CTAS2');
CREATE TABLE [dbo].[load_poly3] WITH(HEAP, DISTRIBUTION = ROUND_ROBIN) AS
SELECT * FROM [pol].[load_poly] OPTION (LABEL = 'CTAS3');
41. • PolyBase は Big Data と RDBMS をつなぐもの
• SQL Server PolyBase スケールアウトグループを構成し
ビッグデータを高速移動できる
• SQL Server 2016/Azure SQL Data Warehouse の
データロードは PolyBase がおすすめ
42. SQL Data Warehouse での同時実行とワークロード管理
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-develop-
concurrency/
Azure SQL Data Warehouse のベスト プラクティス
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-best-
practices/
SQL Data Warehouse のテーブルの分散
https://azure.microsoft.com/ja-jp/documentation/articles/sql-data-warehouse-tables-
distribute/
PolyBase: Gaining insights from HDFS and relational data in SQL Server 2016
https://www.youtube.com/watch?v=lBxSB0UY4wA
Microsoft Azure Blog – Data Warehouse
https://azure.microsoft.com/en-gb/blog/topics/data-warehouse/
日本マイクロソフト Data Platform Tech Sales Team Blog
https://blogs.msdn.microsoft.com/dataplatjp/