SlideShare une entreprise Scribd logo
1  sur  71
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
Junpei Ozono, Solutions Architect
2021.2.17
[AWS Black Belt Online Seminar]
AWS Glue DataBrew
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
2
AWS Black Belt Online Seminar とは
「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ
ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。
質問を投げることができます!
• 書き込んだ質問は、主催者にしか見えません
• 今後のロードマップに関するご質問は
お答えできませんのでご了承下さい
① 吹き出しをクリック
② 質問を入力
③ Sendをクリック
Twitter ハッシュタグは以下をご利用ください
#awsblackbelt
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
3
自己紹介
大薗 純平 (おおぞの じゅんぺい)
@jostandard
アマゾン ウェブ サービス ジャパン
アナリティクスソリューションアーキテクト
© 2021, Amazon Web Services, Inc. or its Affiliates.
4
内容についての注意点
• 本資料では2021 年 2 月 17 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公式
ウェブサイト(http://aws.amazon.com)にてご確認ください。
• 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、
AWS公式ウェブサイトの価格を優先とさせていただきます。
• 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。
• AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in
accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing
information included in this document is provided only as an estimate of usage charges for AWS services based
on certain information that you have provided. Monthly charges will be based on your actual use of AWS
services, and may vary from the estimates provided.
© 2021, Amazon Web Services, Inc. or its Affiliates.
5
• データ準備の課題
• AWS Glue DataBrew 概要
• AWS Glue DataBrew の使い方
• AWS Glue DataBrew のユースケース
• AWS Glue DataBrew の料金
• まとめ
本日のアジェンダ
© 2021, Amazon Web Services, Inc. or its Affiliates.
6
データ準備の課題
© 2021, Amazon Web Services, Inc. or its Affiliates.
7
データ準備 (Data prep) には複雑なタスクを伴う
抽出と
ロード
クリーニングと
正規化
大規模な
自動化
大規模に活用するためには複雑な ETL パイプラインの実装が必要
© 2021, Amazon Web Services, Inc. or its Affiliates.
8
80% の時間がデータ準備に費やされている
利用ユーザーに合った適切なツールが必要
© 2021, Amazon Web Services, Inc. or its Affiliates.
9
典型的なデータ準備における課題
時間がかかる
大規模なデータの抽出、クレンジング、正規化、ロードを
マルチステップで行う必要がある
手動
繰り返しのワークフローを構築・運用するのは困難
スケールさせるには大規模コーディングが必要
大容量データの移動
組織間やシステム間での繰り返しのデータ移動が発生
© 2021, Amazon Web Services, Inc. or its Affiliates.
10
AWS Glue DataBrew 概要
© 2021, Amazon Web Services, Inc. or its Affiliates.
11
AWS Glue DataBrew
データのクリーンアップおよび正規化を
最大 80% 高速化するビジュアルデータ準備ツール
© 2021, Amazon Web Services, Inc. or its Affiliates.
12
データアナリストとデータサイエンティストのためのツール
データのクリーン
アップと正規化
250 種類以上の組み込
みの変換処理から選択
し、データの視覚化、
クリーニング、正規化
を実施
データ品質の理解
データパターンを理解し
異常を検出するために
プロファイリングを行い
データの品質を評価
データリネージの
視覚化
データソースと
変換手順を視覚化
してトラッキング
自動化
保存された変換手順を
使いまわしたり
自動実行する
高度なデータ準備機能をノンコーディングで利用可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
13
AWS Glue DataBrew
の使い方
© 2021, Amazon Web Services, Inc. or its Affiliates.
14
プロジェクト
データセットのクリーンアップや正規化などの変換に関するステップをまとめた
レシピを作成するためのワークスペース
データセット
AWS Glue DataBrew が接続する、フィールド (列) を持つデータの集合
レシピ
データ変換ステップの一連のセット
ジョブ
データセットに対してレシピを適用して変換処理を行うもの (レシピジョブ)
データセットの統計に関するプロファイルを作成するもの (プロファイルジョブ)
AWS Glue DataBrew 用語の紹介
© 2021, Amazon Web Services, Inc. or its Affiliates.
15
AWS Glue DataBrew の使い方
事前準備 (IAM*) データ変換処理の作成 ジョブの実行
* AWS Identity and Access Management
• IAM ユーザー/グループ
• IAM ロール
• IAM ポリシー
• プロジェクトの作成
• データセットへの接続
• レシピの作成
• レシピジョブ
• プロファイルジョブ
© 2021, Amazon Web Services, Inc. or its Affiliates.
16
AWS Glue DataBrew の使い方
事前準備 (IAM*) データ変換処理の作成 ジョブの実行
* AWS Identity and Access Management
• IAM ユーザー/グループ
• IAM ロール
• IAM ポリシー
• プロジェクトの作成
• データセットへの接続
• レシピの作成
• レシピジョブ
• プロファイルジョブ
© 2021, Amazon Web Services, Inc. or its Affiliates.
17
IAM おさらい
https://www.slideshare.net/AmazonWebServicesJapan/20190129-aws-black-belt-online-seminar-aws-identity-and-access-management-iam-part1
https://www.slideshare.net/AmazonWebServicesJapan/20190130-aws-black-belt-online-seminar-aws-identity-and-access-management-aws-iam-part2
事前準備 データ変換処理の作成 ジョブの実行
・・・
Optional top-level elements
Statement
Statement
IAM ポリシー
IAM グループ
IAM ユーザー
IAM ユーザー
IAM ユーザー
どのリソースにどの操作を許
可するか権限を定義する グループ内のユーザに対して
特定の権限を付与する
ログインと特定の権限
を付与する
IAM ロール
特定のユーザや AWS サービ
スに対して権限を委任する
© 2021, Amazon Web Services, Inc. or its Affiliates.
18
1. AWS Glue DataBrew の利用者が
認証に使用するための IAM ユーザー/グループ
および IAM ユーザー/グループにアタッチする IAM ポリシー
2. AWS Glue DataBrew サービス自体が
他の AWS サービスにアクセスする際に使用する IAM ロール
および IAM ロールにアタッチする IAM ポリシー
事前準備として必要なもの
https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
19
IAM ユーザー/グループ準備
https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
事前準備 データ変換処理の作成 ジョブの実行
AWS Management
Console
AWS Command Line
Interface (AWS CLI)
AWS Glue
DataBrew
・・・
Optional top-level elements
Statement
Statement
IAM ポリシー
IAM グループ
IAM ユーザー
IAM ユーザー
IAM ユーザー
・・・
AWS マネージメントコンソールやコマンドラインインターフェース (CLI) から
AWS Glue DataBrew に接続するための IAM ユーザー/グループを準備(作成)
IAM ユーザー/グループに
アタッチする必要な権限が
揃った IAM ポリシーを作成
IAM ポリシーを
IAM ユーザー/グループにアタッチ
2
3
1
© 2021, Amazon Web Services, Inc. or its Affiliates.
20
IAM ロール準備
https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
事前準備 データ変換処理の作成 ジョブの実行
AWS Glue
DataBrew
・・・
Optional top-level elements
Statement
Statement
IAM ポリシー
・・・
AWS Glue DataBrew からアクセスが
必要な他の AWS サービスへのアクセ
ス権限を定義した IAM ロールを準備
(作成)
IAM ロールに
アタッチする必要な権限が
揃った IAM ポリシーを作成
IAM ロール
Amazon Simple
Storage Service (S3)
AWS Glue
AWS Key Management
Service (AWS KMS)
1
IAM ポリシーを
IAM ロールにアタッチ
3
2
© 2021, Amazon Web Services, Inc. or its Affiliates.
21
AWS Glue DataBrew の使い方
事前準備 (IAM*) データ変換処理の作成 ジョブの実行
* AWS Identity and Access Management
• IAM ユーザー/グループ
• IAM ロール
• IAM ポリシー
• プロジェクトの作成
• データセットへの接続
• レシピの作成
• レシピジョブ
• プロファイルジョブ
© 2021, Amazon Web Services, Inc. or its Affiliates.
22
マネージメントコンソールに AWS Glue DataBrew の操作権限を持った
IAM ユーザーでアクセスしてプロジェクトを作成する
プロジェクトの作成
https://docs.aws.amazon.com/databrew/latest/dg/projects.html
事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
23
プロジェクトは、特定のデータセットに対する変換ステップを定義する
”レシピ”を作成するためのワークスペース
プロジェクトとは 事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/projects.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
24
プロジェクト作成手順①
レシピとデータセット
レシピ
•新しいレシピを作成
•既存のレシピを編集
•レシピからステップをインポート
データセット
•マイデータセット
•サンプルファイル
•新しいデータセット
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/projects.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
25
プロジェクト作成手順②
データセットの選択
加工/変換したいデータを以下の
中から選択
•ローカルファイル
•Amazon S3 上のファイル
•AWS Glue データカタログ
•AWS Data Exchange
https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
26
プロジェクト作成手順③
行サンプリング/アクセス許可
プロジェクト内で操作するデータ
セットの行数をサンプリング可能
データセットに対する
アクセス許可を指定
•新しい IAM ロールを作成
•既存の IAM ロールを選択
https://docs.aws.amazon.com/databrew/latest/dg/projects.html
事前準備 データ変換処理の作成 ジョブの実行
「事前準備」で IAM ロールを
作成した場合はこちらを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
27
インプットファイルのサポートフォーマットと拡張子
サポートされるデータセット
フォーマット 拡張子 (非圧縮) *1 拡張子 (圧縮) *1
CSV *2 .csv .csv.gz, .csv.snappy, .csv.lz4, .csv.bz2, .csv.deflate
TSV *2 .tsv .tsv.gz, .tsv.snappy, .tsv.lz4, .tsv.bz2, .tsv.deflate
Microsoft Excel ワークブック .xlsx 非サポート
JSON .json .json.gz, .json.snappy, .json.lz4, .json.bz2,
.json.deflate
JSON lines .jsonl .jsonl.gz, .jsonl.snappy, .jsonl.lz4, .jsonl.bz2,
.jsonl.deflate
Apache Parquet .parquet .parquet.gz, .gz.parquet, .parquet.snappy,
.snappy.parquet, .parquet.lz4, .lz4.parquet
*1 DataBrew は拡張子でファイルフォーマットを判断するため、必ず上記拡張子を使用する
*2 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応
https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
28
Amazon S3 上の特定ファイル/フォルダを示す「S3 パス」または
正規表現を用いた「パラメータ化された S3 パス」を指定可能
例
•ある特定のファイルを指定
s3://bucket-name/inventory-data.csv
•ある特定のフォルダ配下にあるすべてのファイルを指定
s3://bucket-name/folder-name/
•“2021” を名称に含むフォルダ配下にあるすべてのファイルを指定
s3://bucket-name/<.*>2021<.*>/
Amazon S3 上のデータ
https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
29
AWS Glue データカタログ経由で以下サービス上のデータと接続可能
•Amazon Redshift
•Amazon Aurora MySQL
•Amazon Aurora PostgreSQL
•Amazon RDS for MySQL
•Amazon RDS for PostgreSQL
他 AWS サービス上のデータ
https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
30
プロジェクト内でインタラクティブに変換イメージを確認しながら、
データセットに対する変換ステップのコレクションであるレシピを作成
レシピの作成 事前準備 データ変換処理の作成 ジョブの実行
1. 250 種類以上の組み込みの処理から選択
して変換ステップを作成
2. 変換ステップが確定したらレシピを発行
(2)
(1)
https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
31
• 作成したレシピは編集・削除でき、バージョン管理も可能
• レシピは YAML/JSON でのダウンロード, JSON のアップロードも可能
レシピの管理 事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
32
代表的な変換処理
© 2021, Amazon Web Services, Inc. or its Affiliates.
33
データのフィルタリング 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
34
データの結合 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
35
データの集計 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
36
欠損値の補完 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
37
関数を使った新たな列の作成 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
38
複数列の統合 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
39
フラグ値の作成 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
40
One-hot エンコーディング 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
41
数値データの正規化 事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
42
AWS Glue DataBrew の使い方
事前準備 (IAM*) データ変換処理の作成 ジョブの実行
* AWS Identity and Access Management
• IAM ユーザー/グループ
• IAM ロール
• IAM ポリシー
• プロジェクトの作成
• データセットへの接続
• レシピの作成
• レシピジョブ
• プロファイルジョブ
© 2021, Amazon Web Services, Inc. or its Affiliates.
43
AWS Glue DataBrew には 2 種類のジョブがある
•レシピジョブ
• データセットに対してレシピを適用して変換処理を行うもの
•プロファイルジョブ
• データセットの統計に関するプロファイルを作成するもの
ジョブを実行しても対象のデータセットを書き換えることはせず、
指定した Amazon S3 上に結果を書き出す
ジョブ 事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
44
レシピジョブ
© 2021, Amazon Web Services, Inc. or its Affiliates.
45
レシピジョブの作成手順①
データセットに対してレシピを適用して変換処理
ジョブタイプとして
「レシピジョブを作成」を選択
ジョブを実行する対象の
•データセット
•プロジェクト
•レシピ
を選択
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
46
レシピジョブの作成手順②
データセットに対してレシピを適用して変換処理
ジョブの出力結果のアウトプット
ファイルフォーマットや書き出し
先の S3 プレフィックスを指定
パーティションの設定や
ファイルの上書きオプション、
暗号化設定も指定することが可能
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
47
アウトプットファイルのサポートフォーマットと拡張子
サポートされるデータセット
フォーマット 拡張子 (非圧縮) 拡張子 (圧縮)
CSV *1 .csv .csv.snappy, .csv.gz, .csv.lz4, csv.bz2, .csv.deflate
Apache Parquet 非サポート .parquet.snappy, .parquet.gz, .parquet.lz4, .parquet.lzo
AWS Glue Parquet 非サポート .glue.parquet.snappy
Apache Avro .avro .avro.snappy, .avro.gz, .avro.lz4, .avro.bz2, .avro.deflate
Apache Orc 非サポート .orc.snappy, .orc.lzo, .orc.zlib
XML .xml .xml.snappy, .xml.gz, .xml.lz4, .xml.bz2, .xml.deflate
JSON (JSON Lines format only) .json .json.snappy, .json.gz, .json.lz4, json.bz2, .json.deflate
*1 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
事前準備 データ変換処理の作成 ジョブの実行
© 2021, Amazon Web Services, Inc. or its Affiliates.
48
レシピジョブの作成手順②
データセットに対してレシピを適用して変換処理
ジョブに割り当てるノード数や
タイムアウト、リトライ回数を
指定し、パフォーマンスを調整
することが可能
•ノード数はデフォルト 5, 最大 149
•1 ノード 4 vCPUs, 16GB メモリ
データセットに対する
アクセス許可を指定
•新しい IAM ロールを作成
•既存の IAM ロールを選択
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
プロジェクト作成時と同じものを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
49
データリネージ 事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
データのインプットから
アウトプットまでの流れを可視化
ジョブの実行状況も確認可能
各アイコンをクリックすることで
詳細情報の確認も可能
© 2021, Amazon Web Services, Inc. or its Affiliates.
50
プロファイルジョブ
© 2021, Amazon Web Services, Inc. or its Affiliates.
51
プロファイルジョブの作成手順①
データセットの統計に関するプロファイルを作成
ジョブタイプとして
「プロファイルジョブを作成する」
を選択
ジョブを実行する対象の
データセットを選択
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
52
プロファイルジョブの作成手順②
データセットの統計に関するプロファイルを作成
データセットの
サンプリング件数を指定
•全件
•件数指定
ジョブの出力結果の
アウトプットファイルの
書き出し先の S3 プレフィックス
を指定
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
53
ジョブに割り当てるノード数や
タイムアウト、リトライ回数を
指定し、パフォーマンスを調整
することが可能
•ノード数はデフォルト 5, 最大 149
•1 ノード 4 vCPUs, 16GB メモリ
データセットに対する
アクセス許可を指定
•新しい IAM ロールを作成
•既存の IAM ロールを選択
事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
プロファイルジョブの作成手順③
データセットの統計に関するプロファイルを作成
プロジェクト作成時と同じものを選択
© 2021, Amazon Web Services, Inc. or its Affiliates.
54
データプロファイルの生成 事前準備 データ変換処理の作成 ジョブの実行
https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
55
AWS Glue DataBrew
のユースケース
© 2021, Amazon Web Services, Inc. or its Affiliates.
56
1. Amazon Redshift や Amazon RDS など他の AWS サービス内のデータ
をアドホックに探索して整備し、BI レポーティング環境を構築する
2. 定常的に生成するデータのプロファイルチェックを自動化し通知する
3. 機械学習モデルを構築するためのデータを準備する
4. Amazon Athena にクエリして Amazon QuickSight で可視化するため
のデータを準備するパイプラインをコーディングレスで構築する
AWS Glue DataBrew のユースケース
© 2021, Amazon Web Services, Inc. or its Affiliates.
57
1. BI レポーティングのためのアドホックデータ分析
Amazon Simple
Storage Service (S3)
AWS Glue
DataBrew
Amazon QuickSight
S3 Output Bucket
Amazon Redshift
Amazon RDS
Data Catalog
Data Sources
Amazon Simple
Storage Service (S3)
Local file
© 2021, Amazon Web Services, Inc. or its Affiliates.
58
2. AWS Lambda でデータ品質ルールを設定
Amazon Simple
Notification Service
Amazon EventBridge
Email notification
AWS Lambda
Amazon Simple
Storage Service (S3)
AWS Glue
DataBrew
Recurring raw
data feed
https://aws.amazon.com/jp/blogs/big-data/setting-up-automated-data-quality-workflows-and-alerts-using-aws-glue-databrew-and-aws-lambda/
© 2021, Amazon Web Services, Inc. or its Affiliates.
59
3. 機械学習のためのデータ前処理
Amazon Simple
Storage Service (S3)
AWS Glue
DataBrew
JupyterLab Environment
Inference
S3 Output Bucket
Model Training
© 2021, Amazon Web Services, Inc. or its Affiliates.
60
JupyterLab 経由で AWS Glue DataBrew に接続可能
•AWS CLI, AWS Jupyter proxy をセットアップ
•JupyterLab (v.2.2.6 以降) に aws_glue_databrew_jupyter Extension をインストール
•JupyterLab から AWS Glue DataBrew の接続経路はパブリック通信となる
JupyterLab Extension
https://docs.aws.amazon.com/databrew/latest/dg/jupyter.html
Extension インストールで
JupyterLab から
AWS Glue DataBrew に
直接接続できるようになる
© 2021, Amazon Web Services, Inc. or its Affiliates.
61
4. ワークフロー内でデータ準備をオーケストレーション
AWS Step Functions workflow
AWS Glue
DataBrew
AWS Cloud
Amazon Athena
AWS Step Functions
Amazon EventBridge
AWS Glue
DataBrew
Amazon Simple Notification
Service (Amazon SNS)
Amazon Athena
Amazon Athena Amazon QuickSight
AWS Glue
Data Catalog
マーケティング
チーム
BI ユーザー
https://aws.amazon.com/jp/blogs/big-data/orchestrating-an-aws-glue-databrew-job-and-amazon-athena-query-with-aws-step-functions/
S3 Output Bucket
S3 Input Bucket
© 2021, Amazon Web Services, Inc. or its Affiliates.
62
AWS Step Functions との連携
AWS Glue DataBrew ジョブを
AWS Step Functions の
ワークフローに統合可能
データのクリーニングや正規化の
ステップを、分析や機械学習の
ワークフローの一部として
オーケストレーション可能に
https://docs.aws.amazon.com/step-functions/latest/dg/connect-databrew.html
© 2021, Amazon Web Services, Inc. or its Affiliates.
63
AWS Glue DataBrew
ビジネスアナリスト
データサイエンティスト
リッチなビジュアルインターフェース
によりデータを整形・正規化
250 以上の組み込みの変換機能
を選択し、タスクを自動化
データパターンや異常値を把握するための
データプロファイル機能
大規模なデータセットを操作可能
AWS Glue Studio
E T L デ ベ ロ ッ パ ー
コードを記述せずに ETL ジョブを
視覚的にオーサリング
コンソールから数千のジョブを監視
学習コストなしに分散処理を活用
再利用可能なコードを使った高度な変換
© 2021, Amazon Web Services, Inc. or its Affiliates.
64
AWS Glue DataBrew の料金
© 2021, Amazon Web Services, Inc. or its Affiliates.
65
• DataBrew ジョブ - $0.48/node/hour
•ジョブの実行に使用された AWS Glue DataBrew ノードの数に基づいて
1 時間ごとの料金が発生
•デフォルトでは各ジョブに 5 ノード 割り当てられる
•1 ノード 4 vCPUs, 16GB メモリ
• DataBrew インタラクティブセッション - $1/30分
•DataBrew プロジェクトを開くとセッションが開始され、
未操作の時間が続いた場合自動的にサスペンド
•はじめて DataBrew にアクセスする場合、最初の 40 セッションは無償
AWS Glue DataBrew の料金
https://aws.amazon.com/jp/glue/pricing/
© 2021, Amazon Web Services, Inc. or its Affiliates.
66
まとめ
© 2021, Amazon Web Services, Inc. or its Affiliates.
67
• AWS Glue DataBrew は、データのクリーンアップおよび正規化を
最大 80% 高速化するビジュアルデータ準備ツール
• データアナリストやサイエンティストが
コーディングを行うことなしに、
250 種類以上の組み込みの変換処理を使って
データを分析に必要な形に簡単に整形することが可能
• アドホックなデータ探索、データの品質チェック、
機械学習モデル構築の前処理、データ分析パイプライン構築など
さまざまなユースケースに活用することが可能
まとめ
© 2021, Amazon Web Services, Inc. or its Affiliates.
68
Q&A
お答えできなかったご質問については
AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に
後日掲載します。
© 2021, Amazon Web Services, Inc. or its Affiliates.
69
AWS の日本語資料の場所「AWS 資料」で検索
https://amzn.to/JPArchive
© 2021, Amazon Web Services, Inc. or its Affiliates.
70
で[検索]
AWS イベント
毎週”W-A個別技術相談会”を実施中
• AWSのソリューションアーキテクト(SA)に
対策などを相談することも可能
• 申込みはイベント告知サイトから
(https://aws.amazon.com/jp/about-aws/events/)
AWS Well-Architected 個別技術相談会
© 2021, Amazon Web Services, Inc. or its Affiliates.
72
AWS 公式 Webinar
https://amzn.to/JPWebinar
過去資料
https://amzn.to/JPArchive
ご視聴ありがとうございました

Contenu connexe

Plus de Amazon Web Services Japan

202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用Amazon Web Services Japan
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdfAmazon Web Services Japan
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介Amazon Web Services Japan
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon Web Services Japan
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことAmazon Web Services Japan
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチAmazon Web Services Japan
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介Amazon Web Services Japan
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer ProfilesAmazon Web Services Japan
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Web Services Japan
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨Amazon Web Services Japan
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介Amazon Web Services Japan
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介Amazon Web Services Japan
 
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...Amazon Web Services Japan
 
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピAmazon Web Services Japan
 
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operationsAmazon Web Services Japan
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報Amazon Web Services Japan
 
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをなAmazon Web Services Japan
 
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPNAmazon Web Services Japan
 

Plus de Amazon Web Services Japan (20)

202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
 
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
 
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
 
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
 
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
 
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
 
20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes
 
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
 
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
 

20210217 AWS Black Belt Online Seminar AWS Glue DataBrew

  • 1. © 2021, Amazon Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Junpei Ozono, Solutions Architect 2021.2.17 [AWS Black Belt Online Seminar] AWS Glue DataBrew
  • 2. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 2 AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
  • 3. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 3 自己紹介 大薗 純平 (おおぞの じゅんぺい) @jostandard アマゾン ウェブ サービス ジャパン アナリティクスソリューションアーキテクト
  • 4. © 2021, Amazon Web Services, Inc. or its Affiliates. 4 内容についての注意点 • 本資料では2021 年 2 月 17 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公式 ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、 AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  • 5. © 2021, Amazon Web Services, Inc. or its Affiliates. 5 • データ準備の課題 • AWS Glue DataBrew 概要 • AWS Glue DataBrew の使い方 • AWS Glue DataBrew のユースケース • AWS Glue DataBrew の料金 • まとめ 本日のアジェンダ
  • 6. © 2021, Amazon Web Services, Inc. or its Affiliates. 6 データ準備の課題
  • 7. © 2021, Amazon Web Services, Inc. or its Affiliates. 7 データ準備 (Data prep) には複雑なタスクを伴う 抽出と ロード クリーニングと 正規化 大規模な 自動化 大規模に活用するためには複雑な ETL パイプラインの実装が必要
  • 8. © 2021, Amazon Web Services, Inc. or its Affiliates. 8 80% の時間がデータ準備に費やされている 利用ユーザーに合った適切なツールが必要
  • 9. © 2021, Amazon Web Services, Inc. or its Affiliates. 9 典型的なデータ準備における課題 時間がかかる 大規模なデータの抽出、クレンジング、正規化、ロードを マルチステップで行う必要がある 手動 繰り返しのワークフローを構築・運用するのは困難 スケールさせるには大規模コーディングが必要 大容量データの移動 組織間やシステム間での繰り返しのデータ移動が発生
  • 10. © 2021, Amazon Web Services, Inc. or its Affiliates. 10 AWS Glue DataBrew 概要
  • 11. © 2021, Amazon Web Services, Inc. or its Affiliates. 11 AWS Glue DataBrew データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール
  • 12. © 2021, Amazon Web Services, Inc. or its Affiliates. 12 データアナリストとデータサイエンティストのためのツール データのクリーン アップと正規化 250 種類以上の組み込 みの変換処理から選択 し、データの視覚化、 クリーニング、正規化 を実施 データ品質の理解 データパターンを理解し 異常を検出するために プロファイリングを行い データの品質を評価 データリネージの 視覚化 データソースと 変換手順を視覚化 してトラッキング 自動化 保存された変換手順を 使いまわしたり 自動実行する 高度なデータ準備機能をノンコーディングで利用可能
  • 13. © 2021, Amazon Web Services, Inc. or its Affiliates. 13 AWS Glue DataBrew の使い方
  • 14. © 2021, Amazon Web Services, Inc. or its Affiliates. 14 プロジェクト データセットのクリーンアップや正規化などの変換に関するステップをまとめた レシピを作成するためのワークスペース データセット AWS Glue DataBrew が接続する、フィールド (列) を持つデータの集合 レシピ データ変換ステップの一連のセット ジョブ データセットに対してレシピを適用して変換処理を行うもの (レシピジョブ) データセットの統計に関するプロファイルを作成するもの (プロファイルジョブ) AWS Glue DataBrew 用語の紹介
  • 15. © 2021, Amazon Web Services, Inc. or its Affiliates. 15 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 16. © 2021, Amazon Web Services, Inc. or its Affiliates. 16 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 17. © 2021, Amazon Web Services, Inc. or its Affiliates. 17 IAM おさらい https://www.slideshare.net/AmazonWebServicesJapan/20190129-aws-black-belt-online-seminar-aws-identity-and-access-management-iam-part1 https://www.slideshare.net/AmazonWebServicesJapan/20190130-aws-black-belt-online-seminar-aws-identity-and-access-management-aws-iam-part2 事前準備 データ変換処理の作成 ジョブの実行 ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー どのリソースにどの操作を許 可するか権限を定義する グループ内のユーザに対して 特定の権限を付与する ログインと特定の権限 を付与する IAM ロール 特定のユーザや AWS サービ スに対して権限を委任する
  • 18. © 2021, Amazon Web Services, Inc. or its Affiliates. 18 1. AWS Glue DataBrew の利用者が 認証に使用するための IAM ユーザー/グループ および IAM ユーザー/グループにアタッチする IAM ポリシー 2. AWS Glue DataBrew サービス自体が 他の AWS サービスにアクセスする際に使用する IAM ロール および IAM ロールにアタッチする IAM ポリシー 事前準備として必要なもの https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
  • 19. © 2021, Amazon Web Services, Inc. or its Affiliates. 19 IAM ユーザー/グループ準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Management Console AWS Command Line Interface (AWS CLI) AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー ・・・ AWS マネージメントコンソールやコマンドラインインターフェース (CLI) から AWS Glue DataBrew に接続するための IAM ユーザー/グループを準備(作成) IAM ユーザー/グループに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ポリシーを IAM ユーザー/グループにアタッチ 2 3 1
  • 20. © 2021, Amazon Web Services, Inc. or its Affiliates. 20 IAM ロール準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー ・・・ AWS Glue DataBrew からアクセスが 必要な他の AWS サービスへのアクセ ス権限を定義した IAM ロールを準備 (作成) IAM ロールに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ロール Amazon Simple Storage Service (S3) AWS Glue AWS Key Management Service (AWS KMS) 1 IAM ポリシーを IAM ロールにアタッチ 3 2
  • 21. © 2021, Amazon Web Services, Inc. or its Affiliates. 21 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 22. © 2021, Amazon Web Services, Inc. or its Affiliates. 22 マネージメントコンソールに AWS Glue DataBrew の操作権限を持った IAM ユーザーでアクセスしてプロジェクトを作成する プロジェクトの作成 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行
  • 23. © 2021, Amazon Web Services, Inc. or its Affiliates. 23 プロジェクトは、特定のデータセットに対する変換ステップを定義する ”レシピ”を作成するためのワークスペース プロジェクトとは 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
  • 24. © 2021, Amazon Web Services, Inc. or its Affiliates. 24 プロジェクト作成手順① レシピとデータセット レシピ •新しいレシピを作成 •既存のレシピを編集 •レシピからステップをインポート データセット •マイデータセット •サンプルファイル •新しいデータセット 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
  • 25. © 2021, Amazon Web Services, Inc. or its Affiliates. 25 プロジェクト作成手順② データセットの選択 加工/変換したいデータを以下の 中から選択 •ローカルファイル •Amazon S3 上のファイル •AWS Glue データカタログ •AWS Data Exchange https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 26. © 2021, Amazon Web Services, Inc. or its Affiliates. 26 プロジェクト作成手順③ 行サンプリング/アクセス許可 プロジェクト内で操作するデータ セットの行数をサンプリング可能 データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行 「事前準備」で IAM ロールを 作成した場合はこちらを選択
  • 27. © 2021, Amazon Web Services, Inc. or its Affiliates. 27 インプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) *1 拡張子 (圧縮) *1 CSV *2 .csv .csv.gz, .csv.snappy, .csv.lz4, .csv.bz2, .csv.deflate TSV *2 .tsv .tsv.gz, .tsv.snappy, .tsv.lz4, .tsv.bz2, .tsv.deflate Microsoft Excel ワークブック .xlsx 非サポート JSON .json .json.gz, .json.snappy, .json.lz4, .json.bz2, .json.deflate JSON lines .jsonl .jsonl.gz, .jsonl.snappy, .jsonl.lz4, .jsonl.bz2, .jsonl.deflate Apache Parquet .parquet .parquet.gz, .gz.parquet, .parquet.snappy, .snappy.parquet, .parquet.lz4, .lz4.parquet *1 DataBrew は拡張子でファイルフォーマットを判断するため、必ず上記拡張子を使用する *2 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 28. © 2021, Amazon Web Services, Inc. or its Affiliates. 28 Amazon S3 上の特定ファイル/フォルダを示す「S3 パス」または 正規表現を用いた「パラメータ化された S3 パス」を指定可能 例 •ある特定のファイルを指定 s3://bucket-name/inventory-data.csv •ある特定のフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/folder-name/ •“2021” を名称に含むフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/<.*>2021<.*>/ Amazon S3 上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 29. © 2021, Amazon Web Services, Inc. or its Affiliates. 29 AWS Glue データカタログ経由で以下サービス上のデータと接続可能 •Amazon Redshift •Amazon Aurora MySQL •Amazon Aurora PostgreSQL •Amazon RDS for MySQL •Amazon RDS for PostgreSQL 他 AWS サービス上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
  • 30. © 2021, Amazon Web Services, Inc. or its Affiliates. 30 プロジェクト内でインタラクティブに変換イメージを確認しながら、 データセットに対する変換ステップのコレクションであるレシピを作成 レシピの作成 事前準備 データ変換処理の作成 ジョブの実行 1. 250 種類以上の組み込みの処理から選択 して変換ステップを作成 2. 変換ステップが確定したらレシピを発行 (2) (1) https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
  • 31. © 2021, Amazon Web Services, Inc. or its Affiliates. 31 • 作成したレシピは編集・削除でき、バージョン管理も可能 • レシピは YAML/JSON でのダウンロード, JSON のアップロードも可能 レシピの管理 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
  • 32. © 2021, Amazon Web Services, Inc. or its Affiliates. 32 代表的な変換処理
  • 33. © 2021, Amazon Web Services, Inc. or its Affiliates. 33 データのフィルタリング 事前準備 データ変換処理の作成 ジョブの実行
  • 34. © 2021, Amazon Web Services, Inc. or its Affiliates. 34 データの結合 事前準備 データ変換処理の作成 ジョブの実行
  • 35. © 2021, Amazon Web Services, Inc. or its Affiliates. 35 データの集計 事前準備 データ変換処理の作成 ジョブの実行
  • 36. © 2021, Amazon Web Services, Inc. or its Affiliates. 36 欠損値の補完 事前準備 データ変換処理の作成 ジョブの実行
  • 37. © 2021, Amazon Web Services, Inc. or its Affiliates. 37 関数を使った新たな列の作成 事前準備 データ変換処理の作成 ジョブの実行
  • 38. © 2021, Amazon Web Services, Inc. or its Affiliates. 38 複数列の統合 事前準備 データ変換処理の作成 ジョブの実行
  • 39. © 2021, Amazon Web Services, Inc. or its Affiliates. 39 フラグ値の作成 事前準備 データ変換処理の作成 ジョブの実行
  • 40. © 2021, Amazon Web Services, Inc. or its Affiliates. 40 One-hot エンコーディング 事前準備 データ変換処理の作成 ジョブの実行
  • 41. © 2021, Amazon Web Services, Inc. or its Affiliates. 41 数値データの正規化 事前準備 データ変換処理の作成 ジョブの実行
  • 42. © 2021, Amazon Web Services, Inc. or its Affiliates. 42 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
  • 43. © 2021, Amazon Web Services, Inc. or its Affiliates. 43 AWS Glue DataBrew には 2 種類のジョブがある •レシピジョブ • データセットに対してレシピを適用して変換処理を行うもの •プロファイルジョブ • データセットの統計に関するプロファイルを作成するもの ジョブを実行しても対象のデータセットを書き換えることはせず、 指定した Amazon S3 上に結果を書き出す ジョブ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 44. © 2021, Amazon Web Services, Inc. or its Affiliates. 44 レシピジョブ
  • 45. © 2021, Amazon Web Services, Inc. or its Affiliates. 45 レシピジョブの作成手順① データセットに対してレシピを適用して変換処理 ジョブタイプとして 「レシピジョブを作成」を選択 ジョブを実行する対象の •データセット •プロジェクト •レシピ を選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 46. © 2021, Amazon Web Services, Inc. or its Affiliates. 46 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブの出力結果のアウトプット ファイルフォーマットや書き出し 先の S3 プレフィックスを指定 パーティションの設定や ファイルの上書きオプション、 暗号化設定も指定することが可能 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 47. © 2021, Amazon Web Services, Inc. or its Affiliates. 47 アウトプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) 拡張子 (圧縮) CSV *1 .csv .csv.snappy, .csv.gz, .csv.lz4, csv.bz2, .csv.deflate Apache Parquet 非サポート .parquet.snappy, .parquet.gz, .parquet.lz4, .parquet.lzo AWS Glue Parquet 非サポート .glue.parquet.snappy Apache Avro .avro .avro.snappy, .avro.gz, .avro.lz4, .avro.bz2, .avro.deflate Apache Orc 非サポート .orc.snappy, .orc.lzo, .orc.zlib XML .xml .xml.snappy, .xml.gz, .xml.lz4, .xml.bz2, .xml.deflate JSON (JSON Lines format only) .json .json.snappy, .json.gz, .json.lz4, json.bz2, .json.deflate *1 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html 事前準備 データ変換処理の作成 ジョブの実行
  • 48. © 2021, Amazon Web Services, Inc. or its Affiliates. 48 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロジェクト作成時と同じものを選択
  • 49. © 2021, Amazon Web Services, Inc. or its Affiliates. 49 データリネージ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html データのインプットから アウトプットまでの流れを可視化 ジョブの実行状況も確認可能 各アイコンをクリックすることで 詳細情報の確認も可能
  • 50. © 2021, Amazon Web Services, Inc. or its Affiliates. 50 プロファイルジョブ
  • 51. © 2021, Amazon Web Services, Inc. or its Affiliates. 51 プロファイルジョブの作成手順① データセットの統計に関するプロファイルを作成 ジョブタイプとして 「プロファイルジョブを作成する」 を選択 ジョブを実行する対象の データセットを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 52. © 2021, Amazon Web Services, Inc. or its Affiliates. 52 プロファイルジョブの作成手順② データセットの統計に関するプロファイルを作成 データセットの サンプリング件数を指定 •全件 •件数指定 ジョブの出力結果の アウトプットファイルの 書き出し先の S3 プレフィックス を指定 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
  • 53. © 2021, Amazon Web Services, Inc. or its Affiliates. 53 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロファイルジョブの作成手順③ データセットの統計に関するプロファイルを作成 プロジェクト作成時と同じものを選択
  • 54. © 2021, Amazon Web Services, Inc. or its Affiliates. 54 データプロファイルの生成 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
  • 55. © 2021, Amazon Web Services, Inc. or its Affiliates. 55 AWS Glue DataBrew のユースケース
  • 56. © 2021, Amazon Web Services, Inc. or its Affiliates. 56 1. Amazon Redshift や Amazon RDS など他の AWS サービス内のデータ をアドホックに探索して整備し、BI レポーティング環境を構築する 2. 定常的に生成するデータのプロファイルチェックを自動化し通知する 3. 機械学習モデルを構築するためのデータを準備する 4. Amazon Athena にクエリして Amazon QuickSight で可視化するため のデータを準備するパイプラインをコーディングレスで構築する AWS Glue DataBrew のユースケース
  • 57. © 2021, Amazon Web Services, Inc. or its Affiliates. 57 1. BI レポーティングのためのアドホックデータ分析 Amazon Simple Storage Service (S3) AWS Glue DataBrew Amazon QuickSight S3 Output Bucket Amazon Redshift Amazon RDS Data Catalog Data Sources Amazon Simple Storage Service (S3) Local file
  • 58. © 2021, Amazon Web Services, Inc. or its Affiliates. 58 2. AWS Lambda でデータ品質ルールを設定 Amazon Simple Notification Service Amazon EventBridge Email notification AWS Lambda Amazon Simple Storage Service (S3) AWS Glue DataBrew Recurring raw data feed https://aws.amazon.com/jp/blogs/big-data/setting-up-automated-data-quality-workflows-and-alerts-using-aws-glue-databrew-and-aws-lambda/
  • 59. © 2021, Amazon Web Services, Inc. or its Affiliates. 59 3. 機械学習のためのデータ前処理 Amazon Simple Storage Service (S3) AWS Glue DataBrew JupyterLab Environment Inference S3 Output Bucket Model Training
  • 60. © 2021, Amazon Web Services, Inc. or its Affiliates. 60 JupyterLab 経由で AWS Glue DataBrew に接続可能 •AWS CLI, AWS Jupyter proxy をセットアップ •JupyterLab (v.2.2.6 以降) に aws_glue_databrew_jupyter Extension をインストール •JupyterLab から AWS Glue DataBrew の接続経路はパブリック通信となる JupyterLab Extension https://docs.aws.amazon.com/databrew/latest/dg/jupyter.html Extension インストールで JupyterLab から AWS Glue DataBrew に 直接接続できるようになる
  • 61. © 2021, Amazon Web Services, Inc. or its Affiliates. 61 4. ワークフロー内でデータ準備をオーケストレーション AWS Step Functions workflow AWS Glue DataBrew AWS Cloud Amazon Athena AWS Step Functions Amazon EventBridge AWS Glue DataBrew Amazon Simple Notification Service (Amazon SNS) Amazon Athena Amazon Athena Amazon QuickSight AWS Glue Data Catalog マーケティング チーム BI ユーザー https://aws.amazon.com/jp/blogs/big-data/orchestrating-an-aws-glue-databrew-job-and-amazon-athena-query-with-aws-step-functions/ S3 Output Bucket S3 Input Bucket
  • 62. © 2021, Amazon Web Services, Inc. or its Affiliates. 62 AWS Step Functions との連携 AWS Glue DataBrew ジョブを AWS Step Functions の ワークフローに統合可能 データのクリーニングや正規化の ステップを、分析や機械学習の ワークフローの一部として オーケストレーション可能に https://docs.aws.amazon.com/step-functions/latest/dg/connect-databrew.html
  • 63. © 2021, Amazon Web Services, Inc. or its Affiliates. 63 AWS Glue DataBrew ビジネスアナリスト データサイエンティスト リッチなビジュアルインターフェース によりデータを整形・正規化 250 以上の組み込みの変換機能 を選択し、タスクを自動化 データパターンや異常値を把握するための データプロファイル機能 大規模なデータセットを操作可能 AWS Glue Studio E T L デ ベ ロ ッ パ ー コードを記述せずに ETL ジョブを 視覚的にオーサリング コンソールから数千のジョブを監視 学習コストなしに分散処理を活用 再利用可能なコードを使った高度な変換
  • 64. © 2021, Amazon Web Services, Inc. or its Affiliates. 64 AWS Glue DataBrew の料金
  • 65. © 2021, Amazon Web Services, Inc. or its Affiliates. 65 • DataBrew ジョブ - $0.48/node/hour •ジョブの実行に使用された AWS Glue DataBrew ノードの数に基づいて 1 時間ごとの料金が発生 •デフォルトでは各ジョブに 5 ノード 割り当てられる •1 ノード 4 vCPUs, 16GB メモリ • DataBrew インタラクティブセッション - $1/30分 •DataBrew プロジェクトを開くとセッションが開始され、 未操作の時間が続いた場合自動的にサスペンド •はじめて DataBrew にアクセスする場合、最初の 40 セッションは無償 AWS Glue DataBrew の料金 https://aws.amazon.com/jp/glue/pricing/
  • 66. © 2021, Amazon Web Services, Inc. or its Affiliates. 66 まとめ
  • 67. © 2021, Amazon Web Services, Inc. or its Affiliates. 67 • AWS Glue DataBrew は、データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール • データアナリストやサイエンティストが コーディングを行うことなしに、 250 種類以上の組み込みの変換処理を使って データを分析に必要な形に簡単に整形することが可能 • アドホックなデータ探索、データの品質チェック、 機械学習モデル構築の前処理、データ分析パイプライン構築など さまざまなユースケースに活用することが可能 まとめ
  • 68. © 2021, Amazon Web Services, Inc. or its Affiliates. 68 Q&A お答えできなかったご質問については AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に 後日掲載します。
  • 69. © 2021, Amazon Web Services, Inc. or its Affiliates. 69 AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
  • 70. © 2021, Amazon Web Services, Inc. or its Affiliates. 70 で[検索] AWS イベント 毎週”W-A個別技術相談会”を実施中 • AWSのソリューションアーキテクト(SA)に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
  • 71. © 2021, Amazon Web Services, Inc. or its Affiliates. 72 AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました