SlideShare une entreprise Scribd logo
1  sur  74
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
Solutions Architect 大薗 純平
2020/2/18
Next Generation Redshift
サービスカットシリーズ
[AWS Black Belt Online Seminar]
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
自己紹介
大薗 純平 (おおぞの じゅんぺい)
@jostandard
アマゾン ウェブ サービス ジャパン
ソリューションアーキテクト
好きなサービス :
Amazon Redshift をはじめとした
Analytics サービス
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Black Belt Online Seminar とは
「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ
ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。
質問を投げることができます!
• 書き込んだ質問は、主催者にしか見えません
• 今後のロードマップに関するご質問は
お答えできませんのでご了承下さい
① 吹き出しをクリック
② 質問を入力
③ Sendをクリック
Twitter ハッシュタグは以下をご利用ください
#awsblackbelt
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
内容についての注意点
• 本資料では2020年2月18日時点のサービス内容および価格についてご説明しています。最新の
情報はAWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。
• 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相
違があった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。
• 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきま
す。
• AWS does not offer binding price quotes. AWS pricing is publicly available and is
subject to change in accordance with the AWS Customer Agreement available at
http://aws.amazon.com/agreement/. Any pricing information included in this
document is provided only as an estimate of usage charges for AWS services based on
certain information that you have provided. Monthly charges will be based on your
actual use of AWS services, and may vary from the estimates provided.
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Next Generation Redshift アジェンダ
• サービス概要
• アーキテクチャの進化の歴史
• 次世代アーキテクチャ RA3/AQUA
• 新機能アップデート
• まとめ
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
サービス概要
Amazon Redshift
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift とは?
高速、スケーラブルで費用対効果の高い
データウェアハウスおよび
データレイク分析マネージドサービス
Amazon Redshift
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift の特長
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon
Redshift
多くのお客様に活用されている
クラウドデータウェアハウス
数万社のお客様が Amazon Redshift を利用しています
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift の ユースケース
主に大容量データを高速に集計・分析する必要があるワークロードに活用
経営ダッシュボード アドホック分析定型レポーティング
ETL/バッチ 機械学習の前処理
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift を中心としたデータ分析パイプライン
の例
Amazon
Kinesis
Amazon S3
蓄積
AWS Glue
加工・変換
Amazon Redshift
集計・分析
Amazon QuickSight
可視化
Amazon SageMaker
機械学習
LOBCRM
ERPOLTP
AWS DMS/SCT
Social Web
Sensors Devices
オンプレミス AWS クラウド
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
アーキテクチャの進化の歴史
Amazon Redshift
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
2012
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift の基本アーキテクチャ
Amazon
Redshift
JDBC/ODBC
リーダーノード
• クエリのエンドポイント
• SQL 処理コードの生成と展開
コンピュートノード
• ローカル列指向ストレージ
• クエリの並列実行
シェアードナッシング + MPP (Massively Parallel Processing) アーキテクチャ
データを複数のコンピュートノードに分散させ、各ノードで並列処理することで
分析クエリに対する処理スループットを向上させるアプローチ
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift の基本アーキテクチャ
Amazon
Redshift
JDBC/ODBC
Amazon S3
ユーザーバケット
COPY
Unload
Amazon S3
Redshift 管理バケット
Backup
Restore
データはユーザー管理の S3 を経由してロード & アンロード
自動バックアップ & リストアは Redshift サービスで管理する S3 領域を活用
ビジネス
データ
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
2012
Redshift (発表)
2017
新しいインスタンス
DC1, DS2, DC2 (GA)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift の料金
Redshift インスタンス起動時間
• コンピュートノード数 x 1 時間あたりの価格 (リーダーノードは課金対象外)
• リザーブドインスタンス (1 年、3 年) にも対応
vCPU メモリ ストレージ I/O スライス ノード数
インスタンス
料金 (*)
DC2 - Dense Compute
dc2.large 2 15 GB 0.16TB SSD 0.6 GB/s 2 1~32 $0.314 /h
dc2.8xlarge 32 244 GB 2.56TB SSD 7.5 GB/s 16 2~128 $6.095 /h
DS2 – Dense Storage
ds2.xlarge 4 31 GB 2TB HDD 0.4 GB/s 2 1~32 $1.190 /h
ds2.8xlarge 36 244 GB 16TB HDD 3.3 GB/s 16 2~128 $9.520 /h
* 費用は 2020 年 2 月時点での東京リージョンのものです
コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
2012
Redshift (発表)
2017
新しいインスタンス
DC1, DS2, DC2 (GA)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データウェアハウス環境を取り巻く状況の変化
クラウドへの
移行の加速
あらゆるデータを
繋げて洞察を得たい
イベントデータの
爆発的増加
010010010
01010001
100010100
Data
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクという考え方
• 構造 / 半構造 / 非構造すべてのデータを、スケールする形で、
かつ低コストで一箇所に集めて保存するためのもの
• 適切にアクセスコントロールを定義したうえで、データをセキュアに
保持することができるもの
• 「民主化」した形での組織内のデータアクセスを可能とするもの
• 新しいデータ分析を、素早くかつ簡単に実行することができるもの
データレイク
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS のデータレイク = Amazon S3
上限無し : サイジング不要
安価 :
• $0.025/GB/月*(スタンダード)
• $0.019/GB/月*(標準-低頻度アクセス)
例)10TB の保存で約 2.1万円/月**
高い耐久性 : 99.999999999%
API アクセス
• 多様な言語のライブラリを提供
• AWS 各種サービスと連携
データレイク
Amazon S3
データベース
半構造化ファイル
テキストファイル
センサー
モバイル
* 費用は 2020 年 2 月時点での東京リージョンでの価格です
** 1USドル = 110円で、標準-低頻度アクセスでの試算
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データウェアハウスとデータレイクの関係
Amazon
Redshift
JDBC/ODBC
Amazon S3
データレイク
必要なデータを
データウェアハウスに
ロードして分析
データレイクには
あらゆるデータが
格納される
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データウェアハウスとデータレイクの関係
Amazon
Redshift
JDBC/ODBC
Amazon S3
データレイク
データをデータレイクに
置いたまま、
分析ができないだろうか?
データウェアハウスには
• 格納が難しい
• 格納したくない
データもある
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Redshift Spectrum でアーキテクチャをデータレイクに拡
張
Amazon
Redshift
JDBC/ODBC
Amazon S3
ユーザーバケット
Amazon Redshift Spectrum
S3 ファイルへのクエリ実行エンジン
オープンフォーマットファイル
(Parquet, ORC, JSON, CSV etc)
アプリケーションは、
データウェアハウスと
データレイクの双方の
データに透過的に
アクセスできる
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Redshift Spectrum の代表的ユースケース
• 頻繁にアクセスされる直近データを
Redshift データウェアハウスに置き、
アクセス頻度の落ちる過去データは
S3 データレイクに置く
• それぞれのデータを UNION, JOIN
などで繋いでビュー化することで、
データの格納先を意識せずに
透過的に分析することが可能に
• 直近データの保存に必要なだけの
ノード数を維持しながら、
より多くのデータを分析対象にできる
Amazon
Redshift
JDBC/ODBC
直近データ 2019-2020 年
過去データ 2016-2018 年
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Redshift Spectrum の料金
Amazon S3 データレイクへのクエリ容量
• S3 上の「圧縮済み」データ 1 TB スキャンあたり $5 (*)
<Spectrum の料金を抑えるための Tips>
• 配置するファイル
• Parquet や ORC などのカラムナフォーマットでファイルを保存し、
クエリによるアクセス範囲を小さくする
• ファイルは圧縮し、100MB~1GB 程度に分割
• パーティショニングする
• 効果的なクエリの記述
• 必用な列だけ取得する
• 集計、フィルターで戻すデータを最小にする
* 費用および課金体系は 2020 年 2 月時点での東京リージョンのものです
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
2012
Redshift (発表)
2017
Redshift Spectrum (GA)
2019
新しいインスタンス
DC1, DS2, DC2 (GA)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
頭を悩ませる並列ワークロードの課題
• 評判のよいデータウェアハウスは成長していく
• 多様なユーザーが様々なタイミングで様々なツールを使って接続してくる
• このような環境下で、アクセスの集中するピークの時間帯では
クラスター全体のパフォーマンス低下を引き起こす可能性があった
データ
サイエンティスト
Amazon
Redshift
データアナリスト
エンジニア
営業
バッチ
アプリケーション
マーケティング
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ピーク時にコンピュートを自動拡張する Concurrency
Scaling
Amazon
Redshift
Amazon S3
Redshift 管理バケット
Backup
追加クラスター(1~10)
メインクラスター
ディスパッチ
データ読み取り
+
+
+
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Concurrency Scaling の進化
Amazon
Redshift
Amazon S3
Redshift 管理バケット
0
2000
4000
6000
8000
10000
12000
14000
0
20
40
60
80
100
120
140
160
180
200
220
スループット(QueriesperHour)
同時実行クエリ数
拡張性の向上
*Cloud DW
3TB dataset
継続的にパフォーマンスを向上
GA 後 1 年で性能は 35 倍
メインクラスターでクエリのキュー待ちが
発生すると、バックグラウンドで別の独立
したクラスターを自動的に追加し並列処理
* TPC-DS (v2.10) を使用、クエリの修正なし
Concurrency Scaling の料金
Redshift Concurrency Scaling クラスターでのクエリ実行時間
• 各追加クラスターでクエリが実行された期間(秒)
• 1 日あたり 1 時間分の無料クレジットが付与(最大 30 時間)
追加クラスター 1
追加クラスター 2
追加クラスターへの課金
クエリ 1
クエリ 2
クエリ 3
クエリ 4
クエリ5
クエリ 6
クエリ 7
Idle
時間
Idle
時間
クエリ 8
クエリ 9
Idle
時間
時間
1クラスター分 課金なし課金なし2クラスター分 1 1クラスター分
※追加クラスターはクエリ終了後も
一定期間起動されるが、
クエリが実行されなければ無課金
* 課金体系は 2020 年 2 月時点での東京リージョンのものです
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
次世代アーキテクチャ
RA3/AQUA
Amazon Redshift
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
2012
Redshift (発表)
2017
Redshift Spectrum (GA)
2019
Concurrency Scaling (GA)
2020
新しいインスタンス
DC1, DS2, DC2 (GA)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
これまでの Redshift アーキテクチャの課題
Amazon Redshift が採用している
シェアードナッシング + MPP アーキテクチャは
コンピュートとストレージのセットを並列に構えて
大容量データを高速分析するための優れたアーキテクチャ
しかし、コンピュートとストレージが密結合ゆえに、
• コンピュートとストレージを別々にスケールできない
• データ増に伴うノード構成変更時にデータの再分散が
発生し、時間がかかる
という課題があった
…
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
2 つのデータウェアハウスアーキテクチャ (一般論)
シェアードナッシング型
利点 : 高いパフォーマンス
課題 : 柔軟かつ高速に基盤を
スケールすることが難しい
シェアードストレージ型
利点 : 高い柔軟性と耐障害性
課題 : ディスクやネットワークの
ボトルネックが発生しやすい
・
・
・
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
2 つのデータウェアハウスアーキテクチャ (一般論)
シェアードナッシング型 シェアードストレージ型
・
・
・
それぞれのアーキテクチャの利点を享受できないだろうか?
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
次世代 Amazon Redshift のアーキテクチャ (RA3インスタン
ス)
Amazon
Redshift
JDBC/ODBC
リーダーノード
• クエリのエンドポイント
• SQL 処理コードの生成と展開
コンピュートノード
• 高速ローカル SSD キャッシュ
+大容量 RAM 搭載
+広帯域ネットワーキング
• クエリの並列実行
広帯域ネットワーキング
マネージドストレージ
• Redshift 管理 S3 バケットRedshift フォーマットファイル
RA3 インスタンス
シェアードナッシング
の利点を活かしつつ
シェアードストレージ
の利点を享受する
ハイブリッド
アーキテクチャを採用
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
次世代 Amazon Redshift のアーキテクチャ (RA3インスタン
ス)
• コンピュートとストレージを分離し
スケーリングと支払いを独立
• データは、
永続ストレージとしての S3 と
キャッシュとしてのローカル SSD
に格納される
• アクセス頻度の高いブロックは
キャッシュにとどまり、
あまりアクセスされないブロックは
自動的にキャッシュアウト
Amazon
Redshift
JDBC/ODBC
広帯域ネットワーキング
Redshift フォーマットファイル
RA3 インスタンスの料金
RA3.16xlarge
• コンピュート料金
• $15.347/ノード/時間
• 3年リザーブドインスタンス
で60%以上ディスカウント
Amazon
Redshift
JDBC/ODBC
広帯域ネットワーキング
Redshift フォーマットファイル
* 費用は 2020 年 2 月時点での東京リージョンのものです
コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
RA3 インスタンスの料金
RA3.16xlarge
• コンピュート料金
• $15.347/ノード/時間
• 3年リザーブドインスタンス
で60%以上ディスカウント
• ストレージ料金
• 1 ノードあたり最大 64TB
• 格納したデータ容量分のみ
• $0.026/GB-月
Amazon
Redshift
JDBC/ODBC
広帯域ネットワーキング
Redshift フォーマットファイル
* 費用は 2020 年 2 月時点での東京リージョンのものです
コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
RA3 インスタンスは最新の Nitro 高性能ハードウェアで構成
RA3.16xlarge
ノードあたりスペック
• 48 vCPUs
• 384 GiB RAM
• 8GB/s の I/O スループット
組める構成
• 最小2ノード (128TB) から
最大128ノード (8PB) まで
スケールが可能
※ RA3.4xlarge Coming Soon
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift の料金
Redshift インスタンス起動時間 + ストレージ使用量(RA3のみ)
• コンピュートノード数 x 1 時間あたりの価格 (リーダーノードは課金対象外)
• リザーブドインスタンス (1 年、3 年) にも対応
vCPU メモリ ストレージ I/O スライス ノード数
コンピュー
ト料金 (*)
ストレージ
料金 (*)
DC2 - Dense Compute
dc2.large 2 15 GB 0.16TB SSD 0.6 GB/s 2 1~32 $0.314 /h
dc2.8xlarge 32 244 GB 2.56TB SSD 7.5 GB/s 16 2~128 $6.095 /h
DS2 – Dense Storage
ds2.xlarge 4 31 GB 2TB HDD 0.4 GB/s 2 1~32 $1.190 /h
ds2.8xlarge 36 244 GB 16TB HDD 3.3 GB/s 16 2~128 $9.520 /h
RA3 with Redshift Managed Storage(RMS) New!
ra3.4xlarge Stay tuned !
ra3.16xlarge 48 384 GB 64TB RMS 8.0 GB/s 16 2~128 $15.347 /h
$0.026
/GB-Month
* 費用は 2020 年 2 月時点での東京リージョンのものです
コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
Update
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
RA3 インスタンスと従来インスタンス (DC2/DS2) の互換性
• RA3 と従来の DC2/DS2 は
アプリケーションレベル
で互換性がある
• Redshift Spectrum や
Concurrency Scaling など
の機能についても
引き続き使用できる
Amazon
Redshift
JDBC/ODBC
広帯域ネッ ト ワーキング
Redshift フォーマットファイル
オープンフォーマットファイル
(Parquet, ORC, JSON, CSV etc)
……
Concurrency Scaling
+
+
+
ディスパッチ
Amazon S3
Redshift 管理バケット
Backup
Restore
データ読み取り
Redshift Spectrum
Amazon S3 データ レ イ ク
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
RA3 と Redshift Spectrum との違い・使い分け
RA3 Redshift Spectrum
ストレージ Redshift 管理の S3 領域を使用 ユーザー管理の S3 領域を使用
データフォーマット Redshift 独自フォーマット オープンフォーマット
データへのアクセス Redshift からのアクセスのみ 他の AWS サービスからもアクセス可
データの更新 DML UPDATE に対応 DML UPDATE には非対応
コスト Redshift インスタンス料金
+ マネージドストレージ料金
Redshift インスタンス料金
+ S3ストレージ格納料金
+ Spectrum スキャン容量料金
特徴 RA3 のマネージドストレージは
Redshift ストレージの拡張であり、そ
の背後で S3 の技術が使われているが、
利用時に S3 を意識する必要はない
データレイクとしての S3 に
アクセスする機能であり、データレイ
クを介した他サービスとの連携のため
に今後も重要な機能であり続ける
使い分け これまで Redshift 内のデータ増加を抑
制する目的で過去データを削除したり、
S3 にデータをオフロードして
Spectrum を活用していた場合は、
RA3 ストレージを活用
すべてのデータがデータレイクにあり、
Redshift だけではなく他のサービスか
らも同じデータにアクセスする要件が
ある場合は Spectrum を活用
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
DS2 インスタンスから RA3 インスタンスへの移行
• HDD ベースの DS2 インスタンスが、最も RA3 インスタンスへの移行が
推奨されるインスタンスタイプ
• RA3.16xlarge は DS2.8xlarge 2台につき 1台が目安 (2:1)
• 同等価格で性能 2倍 & データ容量 2倍
• RA3.16xlarge の最小ノード構成は 2台からのため、
DS2.8xlarge 3台以下の場合は RA3.4xlarge(*) も検討
• DS2.xlarge は 8ノードで DS2.8xlarge x 1ノード と考えて試算
• 上記はあくまで目安であり、実際には PoC による性能確認を強く推奨
* 2020年 2月 18日時点では未リリース
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
DC2 インスタンスから RA3 インスタンスへの移行
• SSD ベースの DC2 インスタンスから、RA3 インスタンスへの移行について
は
以下の点に留意する
• RA3.16xlarge は DC2.8xlarge 3台につき 1台が目安 (3:1)
• ストレージの観点では 8倍 (7.5TB vs 64TB) のキャパシティーになるが
vCPU 数の観点では 0.5 倍 (96vCPU vs 48vCPU) になる
(注意 : CPU世代も異なるためコンピュート能力の単純比較はできない)
• DC2.8xlarge 環境での CPU 使用率が 50% より高い場合は
より多くの RA3 インスタンスが必要になる可能性がある
• データ容量が 10TB 以下の場合は、RA3 インスタンスへの移行は非推奨
• 上記はあくまで目安であり、実際には PoC による性能確認を強く推奨
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
既存 Redshift クラスターの RA3 インスタンスへの移行方法
1. スナップショットからの復元
• RA3 クラスターを数分で起動
• 新規クラスターの動作確認を行い、旧クラスターを削除
• 「変更クラスター」より新規クラスター名を旧クラスター名に変更
2. Classic Resize
• 「サイズ変更クラスター」より実行
(スナップショットの復元で行うオペレーションを一気通貫で実施。
ただしスナップショットからの復元に比べると時間を要する)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
2012
Redshift (発表)
2017
Redshift Spectrum (GA)
2019
Concurrency Scaling (GA)
2020
Next Gen RA3 (GA)
Future
新しいインスタンス
DC1, DS2, DC2 (GA)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
RA3 インスタンスを更に強化
Amazon
Redshift
RA3
広帯域ネットワーキング
Redshift マネージドストレージ
コンピュートノードと
マネージドストレージ間の
ネットワークの
パフォーマンスペナルティ
を防ぐには?
AQUA (Advanced Query Accelerator) for Amazon
Redshift Amazon
Redshift
RA3
Redshift マネージドストレージ
AQUA を活用することで、
Amazon Redshift は他の
クラウドデータウェアハウ
スに比べて 10 倍高速に
コンピュートノードと
マネージドストレージ
間に AQUA という
新しい 分散型ハード
ウェアアクセラレー
ション処理レイヤ
が組み込まれる
AQUA
ノード
AQUA
ノード
AQUA
ノード
AQUA
ノード
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AQUA - プッシュダウン & スケールアウト計算レイヤー
AQUA 上の Nitro チップがデータの
圧縮、暗号化を高速化
AWS がカスタムデザインした
AQUA ノード上の分析処理向け
プロセッサが、データの
フィルタリングや集計を高速に実行
コンピュートノードから
AQUA ノードに処理を
プッシュダウンすることで
ネットワーク転送データを最小化
AQUA
ノード
AQUA
ノード
AQUA
ノード
AQUA
ノード
RA3
コンピュー
トノード
RA3
コンピュー
トノード
並列スケールアウト
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AQUA その他留意点
• AQUA は RA3 インスタンスを前提とした機能拡張であり、
他のインスタンスタイプでは利用することはできない
• RA3 インスタンスに AQUA が搭載されても、
現行の Redshift の SQL やその他オペレーションは変更する必要なく
そのまま利用が可能
• 現在パブリックプレビュー受付中
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift アーキテクチャの進化の歴史
Redshift (発表)
Redshift Spectrum (GA)
Concurrency Scaling (GA)
Next Gen RA3 (GA)
AQUA
2012 2017 2019 2020 Future
新しいインスタンス
DC1, DS2, DC2 (GA)
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
新機能アップデート
Amazon Redshift
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Robust result set
caching
Large # of tables support
~20000
Copy command support
for ORC, Parquet
IAM role chaining Elastic resize Groups
Redshift Spectrum: date formats,
scalar json and ION file formats
support, region expansion, predicate
filtering
Auto
analyze
Health and performance
monitoring w/Amazon
Cloud watch
Automatic table
distribution style
Cloud watch
support for
WLM queues
Performance enhancements—
hash join, vacuum, window
functions, resize ops, aggregations,
console, union all, efficient compile
code cache
Unload
to CSV
Auto WLM
~25 Query Monitoring
Rules (QMR) support
200+過去 18 ヶ月にリリース
された新機能の数
AQUA
Concurrency Scaling DC1 migration to DC2
Resiliency of
ROLLBACK processing
Manage multi-part
query in AWS console
Auto analyze for
incremental changes
on table
Spectrum Request
Accelerator
Apply new
distribution key
Redshift Spectrum: Row
group filtering in Parquet
and ORC, Nested data
support, Enhanced VPC
Routing, Multiple
partitions
Faster Classic
resize with
optimized data
transfer protocol
Performance: Bloom filters
in joins, complex queries
that create internal table,
communication layer
Redshift Spectrum:
Concurrency scaling
Amazon Lake Formation
integration
Auto-Vacuum sort,
Auto-Analyze and
Auto Table Sort
Auto WLM with
query priorities
Snapshot scheduler
Performance: join
pushdowns to subquery,
mixed workloads temporary
tables, rank functions, null
handling in join, single row insert
Advisor recommendations
for distribution keys
AZ64 compression
encoding
Console
redesignStored procedures
Spatial Processing Column level access
control with AWS lake
formation
RA3
Performance of
Inter-Region
Snapshot Transfers
Federate
d Query
Materialized
Views
近年の Amazon Redshift のめざましい進化
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AZ64 - 高い圧縮率と性能を実現する新しい列エンコーディング
高いデータ圧縮率と性能を両立
データを小さなグループで効率的に圧縮
内部で SIMD 命令による並列処理を活用
数値および日付型データに対して有効で、
デフォルトで設定されるようになっている
AZ64 と既存の圧縮エンコーディング
との比較(*)
AZ64 圧縮率 AZ64 性能
RAW
60–70%
ストレージ容量削減
25–30% 高速
LZO
35%
ストレージ容量削減
40% 高速
ZSTD
5–10%
ストレージ容量削減
70% 高速
* TPC-DS (v2.10) , 30TBを使用、クエリの修正なし
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
機械学習ベースの自動最適化でクエリパフォーマンス向上
テーブルメンテナンスの自動化
機械学習を活用し、クラスターの
状態やクエリワークロード状況を
見ながら処理を実行
チューニングアドバイザにより
リコメンデーションの提供
空間サポート - 新しいデータ型 Geometry
空間データとビジネスデータを
シームレスに統合
Geometry データ型がサポートする空間タイプ:
MultiPoint, MultiLinestring, MultiPolygon,
GeometryCollection など
40以上の Spatial 関数を提供
空間データのインポート、エクスポート、
アクセスおよび処理を実行可能
クライアント
S3 または
ローカルストレージ
Copy
Insert Select
Redshift マネージドストレージ
RA3ノード
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
マテリアライズドビュー (プレビュー中)
頻繁に実行するクエリパターンを高速化
• 結合、フィルタ、集計、射影
ETL/BI パイプラインの簡素化
• 差分リフレッシュ
• ユーザーによるメンテナンス
Redshift へのより簡単で迅速な移行 item store cust price
i1 s1 c1 12.0
i2 s2 c1 3.0
i3 s2 c2 7.0
sales
store owner loc
s1 Joe SF
s2 Ann NY
s3 Lisa SF
store_info
loc total_sales
SF 12.00
NY 10.00
loc_sales
“地域ごとの
総売上は?”
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクエクスポート − Parquet でデータを共有
Redshift テーブルデータを Amazon S3
上へ Parquet でエクスポートすること
が可能に
Parquet は分析ワークロード向けの
オープンな列指向ファイルフォーマット
Redshift Spectrum だけでなく、
Amazon Athena や Amazon EMR など
AWS の他の分析サービスでも
すぐに分析に活用することが可能に
Amazon EMR
Amazon
Redshift
Amazon
Athena
Amazon S3
AWS Glue
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクエクスポートのユースケース①
Amazon
Redshift
Parquet
Sales
(Table)
Amazon S3
UNLOAD
(‘select * from Sales where
sales_date = YYYYMMDD’)
TO ‘s3://mybucket/unload/Sales/’
FORMAT as PARQUET
PARTITION BY (sales_date);
Redshift テーブル上の過去データを
Parquet ファイルに変換
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクエクスポートのユースケース②
Amazon
Redshift
Amazon S3
CSV
Event
(External table)
Parquet
S3 上の CSV ファイルを外部表経由で
Parquet ファイルに変換
UNLOAD
(‘select * from Event’)
TO ‘s3://mybucket/unload/Event/’
FORMAT as PARQUET
PARTITION BY (Event_date);
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
フェデレーテッドクエリ (プレビュー中)
RDS/Aurora PostgreSQL
に対して直接クエリ可能に
データ移動なしにライブデータを分析
データウェアハウス、データレイク、
オペレーショナルデータベースの
データを統合して分析
高い性能でセキュアにデータアクセス
JDBC/ODBC
Redshift マネージドストレージ
RA3ノード
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
フェデレーテッドクエリのユースケース
-- Aurora Postgres has Hot Data (2019)
-- Redshift has Recent Data (2016-2018)
-- S3 has Archival Data (1992-1998)
-- Declare a view across all backends
CREATE VIEW lineitem_all AS
SELECT * FROM s3.lineitem_1t_part -- データレイク
UNION ALL
SELECT * FROM public.lineitem -- データウェアハウス
UNION ALL
SELECT * FROM apg.lineitem -- OLTP データベース
WITH NO SCHEMA BINDING
-- Find #sales with 1 item in Jan of each year
-- Predicates are being pushed down
-- Partition pruning on the S3 data
-- Aggregates are being pushed down
-- Very intuitive syntax
SELECT EXTRACT(year FROM l_shipdate) AS year,
EXTRACT(month FROM l_shipdate) AS month,
COUNT(*) AS orders
FROM lineitem_all
WHERE extract(month FROM l_shipdate) = 1
AND l_quantity < 2
GROUP BY 1,2
ORDER BY 1,2;
データレイク、データウェアハウス、OLTP データベースのデータを統合して分析
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
まとめ
Amazon Redshift
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
まとめ
• Redshift は、高速、スケーラブルで費用対効果の高いデータウェアハウス
およびデータレイク分析マネージドサービス
• お客様のニーズに応じて柔軟にアーキテクチャを進化させてきており、
現在も進化の途中
• Redshift Spectrum
• Concurrency Scaling
• RA3/AQUA
• …
• 今後もお客様のリクエストをもとに、多くの新機能が追加される予定です
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Q&A
お答えできなかったご質問については
AWS Japan Blog 「https://aws.amazon.com/jp/blogs/news/」にて
後日掲載します。
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS の日本語資料の場所「AWS 資料」で検索
https://amzn.to/JPArchive
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
毎週” 個別技術相談会”を実施中
• のソリューションアーキテクト に
対策などを相談することも可能
• 申込みはイベント告知サイトから
(https://aws.amazon.com/jp/about-aws/events/)
AWS Well-Architected 個別技術相談会
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
ご視聴ありがとうございました
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
参考情報
© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
RA3 インスタンスを評価されたケースの例
• DS2.8xlarge 14 ノードからの移行
• ほぼ同等のコスト : RA3.16xlarge 7ノードでクエリが ~2.1 倍高速に
• DS2.8xlarge 16 ノードからの移行 (ETL インテンシブなワークロード)
• ほぼ同等のコスト : RA3.16xlarge 8ノードで ETL ロードが ~1.3 倍高速に
• DC2.8xlarge 15 ノードからの移行
• ほぼ同等のコスト : RA3.16xlarge 5ノードでクエリが ~1.25 倍高速に

Contenu connexe

Tendances

Tendances (20)

20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
20200623 AWS Black Belt Online Seminar Amazon Elasticsearch Service
 
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
20190424 AWS Black Belt Online Seminar Amazon Aurora MySQL
 
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
 
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
20191016 AWS Black Belt Online Seminar Amazon Route 53 Resolver
 
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
AWS Black Belt Online Seminar 2017 AWS Elastic BeanstalkAWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
AWS Black Belt Online Seminar 2017 AWS Elastic Beanstalk
 
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190129 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
 
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
20200722 AWS Black Belt Online Seminar AWSアカウント シングルサインオンの設計と運用
 
20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS20190320 AWS Black Belt Online Seminar Amazon EBS
20190320 AWS Black Belt Online Seminar Amazon EBS
 
20180509 AWS Black Belt Online Seminar Amazon GuardDuty
20180509 AWS Black Belt Online Seminar Amazon GuardDuty20180509 AWS Black Belt Online Seminar Amazon GuardDuty
20180509 AWS Black Belt Online Seminar Amazon GuardDuty
 
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
20190226 AWS Black Belt Online Seminar Amazon WorkSpaces
 
20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager20200212 AWS Black Belt Online Seminar AWS Systems Manager
20200212 AWS Black Belt Online Seminar AWS Systems Manager
 
20210119 AWS Black Belt Online Seminar AWS CloudTrail
20210119 AWS Black Belt Online Seminar AWS CloudTrail20210119 AWS Black Belt Online Seminar AWS CloudTrail
20210119 AWS Black Belt Online Seminar AWS CloudTrail
 
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation 20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation
 
20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation 20191001 AWS Black Belt Online Seminar AWS Lake Formation
20191001 AWS Black Belt Online Seminar AWS Lake Formation
 
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
 
20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray
 
20191105 AWS Black Belt Online Seminar Amazon Route 53 Hosted Zone
20191105 AWS Black Belt Online Seminar Amazon Route 53 Hosted Zone20191105 AWS Black Belt Online Seminar Amazon Route 53 Hosted Zone
20191105 AWS Black Belt Online Seminar Amazon Route 53 Hosted Zone
 
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
 

Similaire à 20200218 AWS Black Belt Online Seminar Next Generation Redshift

What’s New in AWS Database Services
What’s New in AWS Database ServicesWhat’s New in AWS Database Services
What’s New in AWS Database Services
Amazon Web Services
 

Similaire à 20200218 AWS Black Belt Online Seminar Next Generation Redshift (20)

DevConf 2020: Resiliency and availability design patterns for the cloud
DevConf 2020: Resiliency and availability design patterns for the cloudDevConf 2020: Resiliency and availability design patterns for the cloud
DevConf 2020: Resiliency and availability design patterns for the cloud
 
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows WorkloadsMicrosoft Active Directory su AWS per supportare i tuoi Windows Workloads
Microsoft Active Directory su AWS per supportare i tuoi Windows Workloads
 
Scale - Implementing a Data Warehouse on AWS
Scale - Implementing a Data Warehouse on AWSScale - Implementing a Data Warehouse on AWS
Scale - Implementing a Data Warehouse on AWS
 
Costruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWSCostruire Applicazioni Moderne con AWS
Costruire Applicazioni Moderne con AWS
 
AWS Lake Formation Deep Dive
AWS Lake Formation Deep DiveAWS Lake Formation Deep Dive
AWS Lake Formation Deep Dive
 
AWS Startup Garage - Building your MVP on AWS
AWS Startup Garage - Building your MVP on AWSAWS Startup Garage - Building your MVP on AWS
AWS Startup Garage - Building your MVP on AWS
 
Database Freedom - ADB304 - Santa Clara AWS Summit
Database Freedom - ADB304 - Santa Clara AWS SummitDatabase Freedom - ADB304 - Santa Clara AWS Summit
Database Freedom - ADB304 - Santa Clara AWS Summit
 
Migrate & Optimize Microsoft Applications on AWS
Migrate & Optimize Microsoft Applications on AWSMigrate & Optimize Microsoft Applications on AWS
Migrate & Optimize Microsoft Applications on AWS
 
Immersion Day - Como simplificar o acesso ao seu ambiente analítico
Immersion Day - Como simplificar o acesso ao seu ambiente analíticoImmersion Day - Como simplificar o acesso ao seu ambiente analítico
Immersion Day - Como simplificar o acesso ao seu ambiente analítico
 
Leveraging serverless in fullstack development
Leveraging serverless in fullstack developmentLeveraging serverless in fullstack development
Leveraging serverless in fullstack development
 
AWS SSA Webinar 9 - Getting Started on AWS: Storage
AWS SSA Webinar 9 - Getting Started on AWS: StorageAWS SSA Webinar 9 - Getting Started on AWS: Storage
AWS SSA Webinar 9 - Getting Started on AWS: Storage
 
AWS SSA Webinar 9 - Getting Started on AWS: Storage
AWS SSA Webinar 9 - Getting Started on AWS: StorageAWS SSA Webinar 9 - Getting Started on AWS: Storage
AWS SSA Webinar 9 - Getting Started on AWS: Storage
 
Rightsizing Your Silicon Design Environment: Elastic Clusters for EDA Workloa...
Rightsizing Your Silicon Design Environment: Elastic Clusters for EDA Workloa...Rightsizing Your Silicon Design Environment: Elastic Clusters for EDA Workloa...
Rightsizing Your Silicon Design Environment: Elastic Clusters for EDA Workloa...
 
Design, Deploy, and Optimize Microsoft SQL Server on AWS
Design, Deploy, and Optimize Microsoft SQL Server on AWSDesign, Deploy, and Optimize Microsoft SQL Server on AWS
Design, Deploy, and Optimize Microsoft SQL Server on AWS
 
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJSCrea la tua prima serverless ledger-based app con QLDB e NodeJS
Crea la tua prima serverless ledger-based app con QLDB e NodeJS
 
DynamoDB - What's new - DAT304 - re:Invent 2017
DynamoDB - What's new - DAT304 - re:Invent 2017DynamoDB - What's new - DAT304 - re:Invent 2017
DynamoDB - What's new - DAT304 - re:Invent 2017
 
What’s New in AWS Database Services
What’s New in AWS Database ServicesWhat’s New in AWS Database Services
What’s New in AWS Database Services
 
AWS SSA Webinar 33 - Getting started with databases on AWS Amazon DynamoDB
AWS SSA Webinar 33 - Getting started with databases on AWS Amazon DynamoDBAWS SSA Webinar 33 - Getting started with databases on AWS Amazon DynamoDB
AWS SSA Webinar 33 - Getting started with databases on AWS Amazon DynamoDB
 
Microsoft SQL Server Migration Strategies
Microsoft SQL Server Migration StrategiesMicrosoft SQL Server Migration Strategies
Microsoft SQL Server Migration Strategies
 
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and AnalyticsRe:cap do AWS re:Invet 2022 for Data Engineer and Analytics
Re:cap do AWS re:Invet 2022 for Data Engineer and Analytics
 

Plus de Amazon Web Services Japan

Plus de Amazon Web Services Japan (20)

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
 
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
 
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
 
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
 
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
 
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
 
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
 

Dernier

Histor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slideHistor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slide
vu2urc
 

Dernier (20)

From Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time AutomationFrom Event to Action: Accelerate Your Decision Making with Real-Time Automation
From Event to Action: Accelerate Your Decision Making with Real-Time Automation
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
 
Tata AIG General Insurance Company - Insurer Innovation Award 2024
Tata AIG General Insurance Company - Insurer Innovation Award 2024Tata AIG General Insurance Company - Insurer Innovation Award 2024
Tata AIG General Insurance Company - Insurer Innovation Award 2024
 
[2024]Digital Global Overview Report 2024 Meltwater.pdf
[2024]Digital Global Overview Report 2024 Meltwater.pdf[2024]Digital Global Overview Report 2024 Meltwater.pdf
[2024]Digital Global Overview Report 2024 Meltwater.pdf
 
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
Mastering MySQL Database Architecture: Deep Dive into MySQL Shell and MySQL R...
 
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemkeProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
ProductAnonymous-April2024-WinProductDiscovery-MelissaKlemke
 
HTML Injection Attacks: Impact and Mitigation Strategies
HTML Injection Attacks: Impact and Mitigation StrategiesHTML Injection Attacks: Impact and Mitigation Strategies
HTML Injection Attacks: Impact and Mitigation Strategies
 
Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024Finology Group – Insurtech Innovation Award 2024
Finology Group – Insurtech Innovation Award 2024
 
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
 
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot TakeoffStrategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
Strategize a Smooth Tenant-to-tenant Migration and Copilot Takeoff
 
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data DiscoveryTrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
TrustArc Webinar - Unlock the Power of AI-Driven Data Discovery
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
Histor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slideHistor y of HAM Radio presentation slide
Histor y of HAM Radio presentation slide
 
The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024The 7 Things I Know About Cyber Security After 25 Years | April 2024
The 7 Things I Know About Cyber Security After 25 Years | April 2024
 
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdfUnderstanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...
 
Tech Trends Report 2024 Future Today Institute.pdf
Tech Trends Report 2024 Future Today Institute.pdfTech Trends Report 2024 Future Today Institute.pdf
Tech Trends Report 2024 Future Today Institute.pdf
 
Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivity
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt Robison
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed texts
 

20200218 AWS Black Belt Online Seminar Next Generation Redshift

  • 1. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Solutions Architect 大薗 純平 2020/2/18 Next Generation Redshift サービスカットシリーズ [AWS Black Belt Online Seminar]
  • 2. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 自己紹介 大薗 純平 (おおぞの じゅんぺい) @jostandard アマゾン ウェブ サービス ジャパン ソリューションアーキテクト 好きなサービス : Amazon Redshift をはじめとした Analytics サービス
  • 3. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
  • 4. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 内容についての注意点 • 本資料では2020年2月18日時点のサービス内容および価格についてご説明しています。最新の 情報はAWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相 違があった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきま す。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  • 5. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Next Generation Redshift アジェンダ • サービス概要 • アーキテクチャの進化の歴史 • 次世代アーキテクチャ RA3/AQUA • 新機能アップデート • まとめ
  • 6. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive サービス概要 Amazon Redshift
  • 7. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift とは? 高速、スケーラブルで費用対効果の高い データウェアハウスおよび データレイク分析マネージドサービス Amazon Redshift
  • 8. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift の特長
  • 9. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift 多くのお客様に活用されている クラウドデータウェアハウス 数万社のお客様が Amazon Redshift を利用しています
  • 10. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift の ユースケース 主に大容量データを高速に集計・分析する必要があるワークロードに活用 経営ダッシュボード アドホック分析定型レポーティング ETL/バッチ 機械学習の前処理
  • 11. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift を中心としたデータ分析パイプライン の例 Amazon Kinesis Amazon S3 蓄積 AWS Glue 加工・変換 Amazon Redshift 集計・分析 Amazon QuickSight 可視化 Amazon SageMaker 機械学習 LOBCRM ERPOLTP AWS DMS/SCT Social Web Sensors Devices オンプレミス AWS クラウド
  • 12. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive アーキテクチャの進化の歴史 Amazon Redshift
  • 13. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 2012
  • 14. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
  • 15. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
  • 16. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift の基本アーキテクチャ Amazon Redshift JDBC/ODBC リーダーノード • クエリのエンドポイント • SQL 処理コードの生成と展開 コンピュートノード • ローカル列指向ストレージ • クエリの並列実行 シェアードナッシング + MPP (Massively Parallel Processing) アーキテクチャ データを複数のコンピュートノードに分散させ、各ノードで並列処理することで 分析クエリに対する処理スループットを向上させるアプローチ
  • 17. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift の基本アーキテクチャ Amazon Redshift JDBC/ODBC Amazon S3 ユーザーバケット COPY Unload Amazon S3 Redshift 管理バケット Backup Restore データはユーザー管理の S3 を経由してロード & アンロード 自動バックアップ & リストアは Redshift サービスで管理する S3 領域を活用 ビジネス データ
  • 18. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 2012 Redshift (発表) 2017 新しいインスタンス DC1, DS2, DC2 (GA)
  • 19. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift の料金 Redshift インスタンス起動時間 • コンピュートノード数 x 1 時間あたりの価格 (リーダーノードは課金対象外) • リザーブドインスタンス (1 年、3 年) にも対応 vCPU メモリ ストレージ I/O スライス ノード数 インスタンス 料金 (*) DC2 - Dense Compute dc2.large 2 15 GB 0.16TB SSD 0.6 GB/s 2 1~32 $0.314 /h dc2.8xlarge 32 244 GB 2.56TB SSD 7.5 GB/s 16 2~128 $6.095 /h DS2 – Dense Storage ds2.xlarge 4 31 GB 2TB HDD 0.4 GB/s 2 1~32 $1.190 /h ds2.8xlarge 36 244 GB 16TB HDD 3.3 GB/s 16 2~128 $9.520 /h * 費用は 2020 年 2 月時点での東京リージョンのものです コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
  • 20. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 2012 Redshift (発表) 2017 新しいインスタンス DC1, DS2, DC2 (GA)
  • 21. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データウェアハウス環境を取り巻く状況の変化 クラウドへの 移行の加速 あらゆるデータを 繋げて洞察を得たい イベントデータの 爆発的増加 010010010 01010001 100010100 Data
  • 22. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクという考え方 • 構造 / 半構造 / 非構造すべてのデータを、スケールする形で、 かつ低コストで一箇所に集めて保存するためのもの • 適切にアクセスコントロールを定義したうえで、データをセキュアに 保持することができるもの • 「民主化」した形での組織内のデータアクセスを可能とするもの • 新しいデータ分析を、素早くかつ簡単に実行することができるもの データレイク
  • 23. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS のデータレイク = Amazon S3 上限無し : サイジング不要 安価 : • $0.025/GB/月*(スタンダード) • $0.019/GB/月*(標準-低頻度アクセス) 例)10TB の保存で約 2.1万円/月** 高い耐久性 : 99.999999999% API アクセス • 多様な言語のライブラリを提供 • AWS 各種サービスと連携 データレイク Amazon S3 データベース 半構造化ファイル テキストファイル センサー モバイル * 費用は 2020 年 2 月時点での東京リージョンでの価格です ** 1USドル = 110円で、標準-低頻度アクセスでの試算
  • 24. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データウェアハウスとデータレイクの関係 Amazon Redshift JDBC/ODBC Amazon S3 データレイク 必要なデータを データウェアハウスに ロードして分析 データレイクには あらゆるデータが 格納される
  • 25. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データウェアハウスとデータレイクの関係 Amazon Redshift JDBC/ODBC Amazon S3 データレイク データをデータレイクに 置いたまま、 分析ができないだろうか? データウェアハウスには • 格納が難しい • 格納したくない データもある
  • 26. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Redshift Spectrum でアーキテクチャをデータレイクに拡 張 Amazon Redshift JDBC/ODBC Amazon S3 ユーザーバケット Amazon Redshift Spectrum S3 ファイルへのクエリ実行エンジン オープンフォーマットファイル (Parquet, ORC, JSON, CSV etc) アプリケーションは、 データウェアハウスと データレイクの双方の データに透過的に アクセスできる
  • 27. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Redshift Spectrum の代表的ユースケース • 頻繁にアクセスされる直近データを Redshift データウェアハウスに置き、 アクセス頻度の落ちる過去データは S3 データレイクに置く • それぞれのデータを UNION, JOIN などで繋いでビュー化することで、 データの格納先を意識せずに 透過的に分析することが可能に • 直近データの保存に必要なだけの ノード数を維持しながら、 より多くのデータを分析対象にできる Amazon Redshift JDBC/ODBC 直近データ 2019-2020 年 過去データ 2016-2018 年
  • 28. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Redshift Spectrum の料金 Amazon S3 データレイクへのクエリ容量 • S3 上の「圧縮済み」データ 1 TB スキャンあたり $5 (*) <Spectrum の料金を抑えるための Tips> • 配置するファイル • Parquet や ORC などのカラムナフォーマットでファイルを保存し、 クエリによるアクセス範囲を小さくする • ファイルは圧縮し、100MB~1GB 程度に分割 • パーティショニングする • 効果的なクエリの記述 • 必用な列だけ取得する • 集計、フィルターで戻すデータを最小にする * 費用および課金体系は 2020 年 2 月時点での東京リージョンのものです
  • 29. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 2012 Redshift (発表) 2017 Redshift Spectrum (GA) 2019 新しいインスタンス DC1, DS2, DC2 (GA)
  • 30. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 頭を悩ませる並列ワークロードの課題 • 評判のよいデータウェアハウスは成長していく • 多様なユーザーが様々なタイミングで様々なツールを使って接続してくる • このような環境下で、アクセスの集中するピークの時間帯では クラスター全体のパフォーマンス低下を引き起こす可能性があった データ サイエンティスト Amazon Redshift データアナリスト エンジニア 営業 バッチ アプリケーション マーケティング
  • 31. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ピーク時にコンピュートを自動拡張する Concurrency Scaling Amazon Redshift Amazon S3 Redshift 管理バケット Backup 追加クラスター(1~10) メインクラスター ディスパッチ データ読み取り + + +
  • 32. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Concurrency Scaling の進化 Amazon Redshift Amazon S3 Redshift 管理バケット 0 2000 4000 6000 8000 10000 12000 14000 0 20 40 60 80 100 120 140 160 180 200 220 スループット(QueriesperHour) 同時実行クエリ数 拡張性の向上 *Cloud DW 3TB dataset 継続的にパフォーマンスを向上 GA 後 1 年で性能は 35 倍 メインクラスターでクエリのキュー待ちが 発生すると、バックグラウンドで別の独立 したクラスターを自動的に追加し並列処理 * TPC-DS (v2.10) を使用、クエリの修正なし
  • 33. Concurrency Scaling の料金 Redshift Concurrency Scaling クラスターでのクエリ実行時間 • 各追加クラスターでクエリが実行された期間(秒) • 1 日あたり 1 時間分の無料クレジットが付与(最大 30 時間) 追加クラスター 1 追加クラスター 2 追加クラスターへの課金 クエリ 1 クエリ 2 クエリ 3 クエリ 4 クエリ5 クエリ 6 クエリ 7 Idle 時間 Idle 時間 クエリ 8 クエリ 9 Idle 時間 時間 1クラスター分 課金なし課金なし2クラスター分 1 1クラスター分 ※追加クラスターはクエリ終了後も 一定期間起動されるが、 クエリが実行されなければ無課金 * 課金体系は 2020 年 2 月時点での東京リージョンのものです
  • 34. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive 次世代アーキテクチャ RA3/AQUA Amazon Redshift
  • 35. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 2012 Redshift (発表) 2017 Redshift Spectrum (GA) 2019 Concurrency Scaling (GA) 2020 新しいインスタンス DC1, DS2, DC2 (GA)
  • 36. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. これまでの Redshift アーキテクチャの課題 Amazon Redshift が採用している シェアードナッシング + MPP アーキテクチャは コンピュートとストレージのセットを並列に構えて 大容量データを高速分析するための優れたアーキテクチャ しかし、コンピュートとストレージが密結合ゆえに、 • コンピュートとストレージを別々にスケールできない • データ増に伴うノード構成変更時にデータの再分散が 発生し、時間がかかる という課題があった …
  • 37. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 つのデータウェアハウスアーキテクチャ (一般論) シェアードナッシング型 利点 : 高いパフォーマンス 課題 : 柔軟かつ高速に基盤を スケールすることが難しい シェアードストレージ型 利点 : 高い柔軟性と耐障害性 課題 : ディスクやネットワークの ボトルネックが発生しやすい ・ ・ ・
  • 38. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 つのデータウェアハウスアーキテクチャ (一般論) シェアードナッシング型 シェアードストレージ型 ・ ・ ・ それぞれのアーキテクチャの利点を享受できないだろうか?
  • 39. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 次世代 Amazon Redshift のアーキテクチャ (RA3インスタン ス) Amazon Redshift JDBC/ODBC リーダーノード • クエリのエンドポイント • SQL 処理コードの生成と展開 コンピュートノード • 高速ローカル SSD キャッシュ +大容量 RAM 搭載 +広帯域ネットワーキング • クエリの並列実行 広帯域ネットワーキング マネージドストレージ • Redshift 管理 S3 バケットRedshift フォーマットファイル RA3 インスタンス シェアードナッシング の利点を活かしつつ シェアードストレージ の利点を享受する ハイブリッド アーキテクチャを採用
  • 40. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 次世代 Amazon Redshift のアーキテクチャ (RA3インスタン ス) • コンピュートとストレージを分離し スケーリングと支払いを独立 • データは、 永続ストレージとしての S3 と キャッシュとしてのローカル SSD に格納される • アクセス頻度の高いブロックは キャッシュにとどまり、 あまりアクセスされないブロックは 自動的にキャッシュアウト Amazon Redshift JDBC/ODBC 広帯域ネットワーキング Redshift フォーマットファイル
  • 41. RA3 インスタンスの料金 RA3.16xlarge • コンピュート料金 • $15.347/ノード/時間 • 3年リザーブドインスタンス で60%以上ディスカウント Amazon Redshift JDBC/ODBC 広帯域ネットワーキング Redshift フォーマットファイル * 費用は 2020 年 2 月時点での東京リージョンのものです コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
  • 42. RA3 インスタンスの料金 RA3.16xlarge • コンピュート料金 • $15.347/ノード/時間 • 3年リザーブドインスタンス で60%以上ディスカウント • ストレージ料金 • 1 ノードあたり最大 64TB • 格納したデータ容量分のみ • $0.026/GB-月 Amazon Redshift JDBC/ODBC 広帯域ネットワーキング Redshift フォーマットファイル * 費用は 2020 年 2 月時点での東京リージョンのものです コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます
  • 43. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. RA3 インスタンスは最新の Nitro 高性能ハードウェアで構成 RA3.16xlarge ノードあたりスペック • 48 vCPUs • 384 GiB RAM • 8GB/s の I/O スループット 組める構成 • 最小2ノード (128TB) から 最大128ノード (8PB) まで スケールが可能 ※ RA3.4xlarge Coming Soon
  • 44. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift の料金 Redshift インスタンス起動時間 + ストレージ使用量(RA3のみ) • コンピュートノード数 x 1 時間あたりの価格 (リーダーノードは課金対象外) • リザーブドインスタンス (1 年、3 年) にも対応 vCPU メモリ ストレージ I/O スライス ノード数 コンピュー ト料金 (*) ストレージ 料金 (*) DC2 - Dense Compute dc2.large 2 15 GB 0.16TB SSD 0.6 GB/s 2 1~32 $0.314 /h dc2.8xlarge 32 244 GB 2.56TB SSD 7.5 GB/s 16 2~128 $6.095 /h DS2 – Dense Storage ds2.xlarge 4 31 GB 2TB HDD 0.4 GB/s 2 1~32 $1.190 /h ds2.8xlarge 36 244 GB 16TB HDD 3.3 GB/s 16 2~128 $9.520 /h RA3 with Redshift Managed Storage(RMS) New! ra3.4xlarge Stay tuned ! ra3.16xlarge 48 384 GB 64TB RMS 8.0 GB/s 16 2~128 $15.347 /h $0.026 /GB-Month * 費用は 2020 年 2 月時点での東京リージョンのものです コンピュート料金は、1 時間未満の時間は 1 秒単位で請求されます Update
  • 45. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. RA3 インスタンスと従来インスタンス (DC2/DS2) の互換性 • RA3 と従来の DC2/DS2 は アプリケーションレベル で互換性がある • Redshift Spectrum や Concurrency Scaling など の機能についても 引き続き使用できる Amazon Redshift JDBC/ODBC 広帯域ネッ ト ワーキング Redshift フォーマットファイル オープンフォーマットファイル (Parquet, ORC, JSON, CSV etc) …… Concurrency Scaling + + + ディスパッチ Amazon S3 Redshift 管理バケット Backup Restore データ読み取り Redshift Spectrum Amazon S3 データ レ イ ク
  • 46. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. RA3 と Redshift Spectrum との違い・使い分け RA3 Redshift Spectrum ストレージ Redshift 管理の S3 領域を使用 ユーザー管理の S3 領域を使用 データフォーマット Redshift 独自フォーマット オープンフォーマット データへのアクセス Redshift からのアクセスのみ 他の AWS サービスからもアクセス可 データの更新 DML UPDATE に対応 DML UPDATE には非対応 コスト Redshift インスタンス料金 + マネージドストレージ料金 Redshift インスタンス料金 + S3ストレージ格納料金 + Spectrum スキャン容量料金 特徴 RA3 のマネージドストレージは Redshift ストレージの拡張であり、そ の背後で S3 の技術が使われているが、 利用時に S3 を意識する必要はない データレイクとしての S3 に アクセスする機能であり、データレイ クを介した他サービスとの連携のため に今後も重要な機能であり続ける 使い分け これまで Redshift 内のデータ増加を抑 制する目的で過去データを削除したり、 S3 にデータをオフロードして Spectrum を活用していた場合は、 RA3 ストレージを活用 すべてのデータがデータレイクにあり、 Redshift だけではなく他のサービスか らも同じデータにアクセスする要件が ある場合は Spectrum を活用
  • 47. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. DS2 インスタンスから RA3 インスタンスへの移行 • HDD ベースの DS2 インスタンスが、最も RA3 インスタンスへの移行が 推奨されるインスタンスタイプ • RA3.16xlarge は DS2.8xlarge 2台につき 1台が目安 (2:1) • 同等価格で性能 2倍 & データ容量 2倍 • RA3.16xlarge の最小ノード構成は 2台からのため、 DS2.8xlarge 3台以下の場合は RA3.4xlarge(*) も検討 • DS2.xlarge は 8ノードで DS2.8xlarge x 1ノード と考えて試算 • 上記はあくまで目安であり、実際には PoC による性能確認を強く推奨 * 2020年 2月 18日時点では未リリース
  • 48. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. DC2 インスタンスから RA3 インスタンスへの移行 • SSD ベースの DC2 インスタンスから、RA3 インスタンスへの移行について は 以下の点に留意する • RA3.16xlarge は DC2.8xlarge 3台につき 1台が目安 (3:1) • ストレージの観点では 8倍 (7.5TB vs 64TB) のキャパシティーになるが vCPU 数の観点では 0.5 倍 (96vCPU vs 48vCPU) になる (注意 : CPU世代も異なるためコンピュート能力の単純比較はできない) • DC2.8xlarge 環境での CPU 使用率が 50% より高い場合は より多くの RA3 インスタンスが必要になる可能性がある • データ容量が 10TB 以下の場合は、RA3 インスタンスへの移行は非推奨 • 上記はあくまで目安であり、実際には PoC による性能確認を強く推奨
  • 49. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 既存 Redshift クラスターの RA3 インスタンスへの移行方法 1. スナップショットからの復元 • RA3 クラスターを数分で起動 • 新規クラスターの動作確認を行い、旧クラスターを削除 • 「変更クラスター」より新規クラスター名を旧クラスター名に変更 2. Classic Resize • 「サイズ変更クラスター」より実行 (スナップショットの復元で行うオペレーションを一気通貫で実施。 ただしスナップショットからの復元に比べると時間を要する)
  • 50. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 2012 Redshift (発表) 2017 Redshift Spectrum (GA) 2019 Concurrency Scaling (GA) 2020 Next Gen RA3 (GA) Future 新しいインスタンス DC1, DS2, DC2 (GA)
  • 51. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. RA3 インスタンスを更に強化 Amazon Redshift RA3 広帯域ネットワーキング Redshift マネージドストレージ コンピュートノードと マネージドストレージ間の ネットワークの パフォーマンスペナルティ を防ぐには?
  • 52. AQUA (Advanced Query Accelerator) for Amazon Redshift Amazon Redshift RA3 Redshift マネージドストレージ AQUA を活用することで、 Amazon Redshift は他の クラウドデータウェアハウ スに比べて 10 倍高速に コンピュートノードと マネージドストレージ 間に AQUA という 新しい 分散型ハード ウェアアクセラレー ション処理レイヤ が組み込まれる AQUA ノード AQUA ノード AQUA ノード AQUA ノード
  • 53. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AQUA - プッシュダウン & スケールアウト計算レイヤー AQUA 上の Nitro チップがデータの 圧縮、暗号化を高速化 AWS がカスタムデザインした AQUA ノード上の分析処理向け プロセッサが、データの フィルタリングや集計を高速に実行 コンピュートノードから AQUA ノードに処理を プッシュダウンすることで ネットワーク転送データを最小化 AQUA ノード AQUA ノード AQUA ノード AQUA ノード RA3 コンピュー トノード RA3 コンピュー トノード 並列スケールアウト
  • 54. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AQUA その他留意点 • AQUA は RA3 インスタンスを前提とした機能拡張であり、 他のインスタンスタイプでは利用することはできない • RA3 インスタンスに AQUA が搭載されても、 現行の Redshift の SQL やその他オペレーションは変更する必要なく そのまま利用が可能 • 現在パブリックプレビュー受付中
  • 55. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift アーキテクチャの進化の歴史 Redshift (発表) Redshift Spectrum (GA) Concurrency Scaling (GA) Next Gen RA3 (GA) AQUA 2012 2017 2019 2020 Future 新しいインスタンス DC1, DS2, DC2 (GA)
  • 56. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive 新機能アップデート Amazon Redshift
  • 57. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Robust result set caching Large # of tables support ~20000 Copy command support for ORC, Parquet IAM role chaining Elastic resize Groups Redshift Spectrum: date formats, scalar json and ION file formats support, region expansion, predicate filtering Auto analyze Health and performance monitoring w/Amazon Cloud watch Automatic table distribution style Cloud watch support for WLM queues Performance enhancements— hash join, vacuum, window functions, resize ops, aggregations, console, union all, efficient compile code cache Unload to CSV Auto WLM ~25 Query Monitoring Rules (QMR) support 200+過去 18 ヶ月にリリース された新機能の数 AQUA Concurrency Scaling DC1 migration to DC2 Resiliency of ROLLBACK processing Manage multi-part query in AWS console Auto analyze for incremental changes on table Spectrum Request Accelerator Apply new distribution key Redshift Spectrum: Row group filtering in Parquet and ORC, Nested data support, Enhanced VPC Routing, Multiple partitions Faster Classic resize with optimized data transfer protocol Performance: Bloom filters in joins, complex queries that create internal table, communication layer Redshift Spectrum: Concurrency scaling Amazon Lake Formation integration Auto-Vacuum sort, Auto-Analyze and Auto Table Sort Auto WLM with query priorities Snapshot scheduler Performance: join pushdowns to subquery, mixed workloads temporary tables, rank functions, null handling in join, single row insert Advisor recommendations for distribution keys AZ64 compression encoding Console redesignStored procedures Spatial Processing Column level access control with AWS lake formation RA3 Performance of Inter-Region Snapshot Transfers Federate d Query Materialized Views 近年の Amazon Redshift のめざましい進化
  • 58. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AZ64 - 高い圧縮率と性能を実現する新しい列エンコーディング 高いデータ圧縮率と性能を両立 データを小さなグループで効率的に圧縮 内部で SIMD 命令による並列処理を活用 数値および日付型データに対して有効で、 デフォルトで設定されるようになっている AZ64 と既存の圧縮エンコーディング との比較(*) AZ64 圧縮率 AZ64 性能 RAW 60–70% ストレージ容量削減 25–30% 高速 LZO 35% ストレージ容量削減 40% 高速 ZSTD 5–10% ストレージ容量削減 70% 高速 * TPC-DS (v2.10) , 30TBを使用、クエリの修正なし
  • 59. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 機械学習ベースの自動最適化でクエリパフォーマンス向上 テーブルメンテナンスの自動化 機械学習を活用し、クラスターの 状態やクエリワークロード状況を 見ながら処理を実行 チューニングアドバイザにより リコメンデーションの提供
  • 60. 空間サポート - 新しいデータ型 Geometry 空間データとビジネスデータを シームレスに統合 Geometry データ型がサポートする空間タイプ: MultiPoint, MultiLinestring, MultiPolygon, GeometryCollection など 40以上の Spatial 関数を提供 空間データのインポート、エクスポート、 アクセスおよび処理を実行可能 クライアント S3 または ローカルストレージ Copy Insert Select Redshift マネージドストレージ RA3ノード
  • 61. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. マテリアライズドビュー (プレビュー中) 頻繁に実行するクエリパターンを高速化 • 結合、フィルタ、集計、射影 ETL/BI パイプラインの簡素化 • 差分リフレッシュ • ユーザーによるメンテナンス Redshift へのより簡単で迅速な移行 item store cust price i1 s1 c1 12.0 i2 s2 c1 3.0 i3 s2 c2 7.0 sales store owner loc s1 Joe SF s2 Ann NY s3 Lisa SF store_info loc total_sales SF 12.00 NY 10.00 loc_sales “地域ごとの 総売上は?”
  • 62. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクエクスポート − Parquet でデータを共有 Redshift テーブルデータを Amazon S3 上へ Parquet でエクスポートすること が可能に Parquet は分析ワークロード向けの オープンな列指向ファイルフォーマット Redshift Spectrum だけでなく、 Amazon Athena や Amazon EMR など AWS の他の分析サービスでも すぐに分析に活用することが可能に Amazon EMR Amazon Redshift Amazon Athena Amazon S3 AWS Glue
  • 63. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクエクスポートのユースケース① Amazon Redshift Parquet Sales (Table) Amazon S3 UNLOAD (‘select * from Sales where sales_date = YYYYMMDD’) TO ‘s3://mybucket/unload/Sales/’ FORMAT as PARQUET PARTITION BY (sales_date); Redshift テーブル上の過去データを Parquet ファイルに変換
  • 64. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクエクスポートのユースケース② Amazon Redshift Amazon S3 CSV Event (External table) Parquet S3 上の CSV ファイルを外部表経由で Parquet ファイルに変換 UNLOAD (‘select * from Event’) TO ‘s3://mybucket/unload/Event/’ FORMAT as PARQUET PARTITION BY (Event_date);
  • 65. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. フェデレーテッドクエリ (プレビュー中) RDS/Aurora PostgreSQL に対して直接クエリ可能に データ移動なしにライブデータを分析 データウェアハウス、データレイク、 オペレーショナルデータベースの データを統合して分析 高い性能でセキュアにデータアクセス JDBC/ODBC Redshift マネージドストレージ RA3ノード
  • 66. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. フェデレーテッドクエリのユースケース -- Aurora Postgres has Hot Data (2019) -- Redshift has Recent Data (2016-2018) -- S3 has Archival Data (1992-1998) -- Declare a view across all backends CREATE VIEW lineitem_all AS SELECT * FROM s3.lineitem_1t_part -- データレイク UNION ALL SELECT * FROM public.lineitem -- データウェアハウス UNION ALL SELECT * FROM apg.lineitem -- OLTP データベース WITH NO SCHEMA BINDING -- Find #sales with 1 item in Jan of each year -- Predicates are being pushed down -- Partition pruning on the S3 data -- Aggregates are being pushed down -- Very intuitive syntax SELECT EXTRACT(year FROM l_shipdate) AS year, EXTRACT(month FROM l_shipdate) AS month, COUNT(*) AS orders FROM lineitem_all WHERE extract(month FROM l_shipdate) = 1 AND l_quantity < 2 GROUP BY 1,2 ORDER BY 1,2; データレイク、データウェアハウス、OLTP データベースのデータを統合して分析
  • 67. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive まとめ Amazon Redshift
  • 68. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ • Redshift は、高速、スケーラブルで費用対効果の高いデータウェアハウス およびデータレイク分析マネージドサービス • お客様のニーズに応じて柔軟にアーキテクチャを進化させてきており、 現在も進化の途中 • Redshift Spectrum • Concurrency Scaling • RA3/AQUA • … • 今後もお客様のリクエストをもとに、多くの新機能が追加される予定です
  • 69. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Q&A お答えできなかったご質問については AWS Japan Blog 「https://aws.amazon.com/jp/blogs/news/」にて 後日掲載します。
  • 70. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
  • 71. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 毎週” 個別技術相談会”を実施中 • のソリューションアーキテクト に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
  • 72. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました
  • 73. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive 参考情報
  • 74. © 2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. RA3 インスタンスを評価されたケースの例 • DS2.8xlarge 14 ノードからの移行 • ほぼ同等のコスト : RA3.16xlarge 7ノードでクエリが ~2.1 倍高速に • DS2.8xlarge 16 ノードからの移行 (ETL インテンシブなワークロード) • ほぼ同等のコスト : RA3.16xlarge 8ノードで ETL ロードが ~1.3 倍高速に • DC2.8xlarge 15 ノードからの移行 • ほぼ同等のコスト : RA3.16xlarge 5ノードでクエリが ~1.25 倍高速に