Soumettre la recherche
Mettre en ligne
20210217 AWS Black Belt Online Seminar AWS Glue DataBrew
•
1 j'aime
•
3,540 vues
Amazon Web Services Japan
Suivre
AWS公式オンラインセミナー: https://amzn.to/JPWebinar 過去資料: https://amzn.to/JPArchive
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 71
Recommandé
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Amazon Web Services Japan
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Web Services Japan
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
Recommandé
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
Amazon Web Services Japan
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
Amazon Web Services Japan
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
Amazon Web Services Japan
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
Amazon Web Services Japan
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
Amazon Web Services Japan
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Web Services Japan
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
Amazon Web Services Japan
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
Amazon Web Services Japan
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
Amazon Web Services Japan
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
Amazon Web Services Japan
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Amazon Web Services Japan
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
Amazon Web Services Japan
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
Amazon Web Services Japan
20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes
Amazon Web Services Japan
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
Amazon Web Services Japan
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
Amazon Web Services Japan
Contenu connexe
Plus de Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
Amazon Web Services Japan
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
Amazon Web Services Japan
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Web Services Japan
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
Amazon Web Services Japan
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
Amazon Web Services Japan
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
Amazon Web Services Japan
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
Amazon Web Services Japan
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Amazon Web Services Japan
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
Amazon Web Services Japan
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
Amazon Web Services Japan
20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes
Amazon Web Services Japan
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
Amazon Web Services Japan
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
Amazon Web Services Japan
Plus de Amazon Web Services Japan
(20)
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
202112 AWS Black Belt Online Seminar 店内の「今」をお届けする小売業向けリアルタイム配信基盤のレシピ
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
20211109 JAWS-UG SRE keynotes
20211109 JAWS-UG SRE keynotes
20211109 bleaの使い方(基本編)
20211109 bleaの使い方(基本編)
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
20210217 AWS Black Belt Online Seminar AWS Glue DataBrew
1.
© 2021, Amazon
Web Services, Inc. or its Affiliates. AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive Junpei Ozono, Solutions Architect 2021.2.17 [AWS Black Belt Online Seminar] AWS Glue DataBrew
2.
© 2021, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. 2 AWS Black Belt Online Seminar とは 「サービス別」「ソリューション別」「業種別」のそれぞれのテーマに分かれて、アマゾ ン ウェブ サービス ジャパン株式会社が主催するオンラインセミナーシリーズです。 質問を投げることができます! • 書き込んだ質問は、主催者にしか見えません • 今後のロードマップに関するご質問は お答えできませんのでご了承下さい ① 吹き出しをクリック ② 質問を入力 ③ Sendをクリック Twitter ハッシュタグは以下をご利用ください #awsblackbelt
3.
© 2021, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. 3 自己紹介 大薗 純平 (おおぞの じゅんぺい) @jostandard アマゾン ウェブ サービス ジャパン アナリティクスソリューションアーキテクト
4.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 4 内容についての注意点 • 本資料では2021 年 2 月 17 日現在のサービス内容および価格についてご説明しています。最新の情報はAWS公式 ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違があった場合、 AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様には別途消費税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
5.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 5 • データ準備の課題 • AWS Glue DataBrew 概要 • AWS Glue DataBrew の使い方 • AWS Glue DataBrew のユースケース • AWS Glue DataBrew の料金 • まとめ 本日のアジェンダ
6.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 6 データ準備の課題
7.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 7 データ準備 (Data prep) には複雑なタスクを伴う 抽出と ロード クリーニングと 正規化 大規模な 自動化 大規模に活用するためには複雑な ETL パイプラインの実装が必要
8.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 8 80% の時間がデータ準備に費やされている 利用ユーザーに合った適切なツールが必要
9.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 9 典型的なデータ準備における課題 時間がかかる 大規模なデータの抽出、クレンジング、正規化、ロードを マルチステップで行う必要がある 手動 繰り返しのワークフローを構築・運用するのは困難 スケールさせるには大規模コーディングが必要 大容量データの移動 組織間やシステム間での繰り返しのデータ移動が発生
10.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 10 AWS Glue DataBrew 概要
11.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 11 AWS Glue DataBrew データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール
12.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 12 データアナリストとデータサイエンティストのためのツール データのクリーン アップと正規化 250 種類以上の組み込 みの変換処理から選択 し、データの視覚化、 クリーニング、正規化 を実施 データ品質の理解 データパターンを理解し 異常を検出するために プロファイリングを行い データの品質を評価 データリネージの 視覚化 データソースと 変換手順を視覚化 してトラッキング 自動化 保存された変換手順を 使いまわしたり 自動実行する 高度なデータ準備機能をノンコーディングで利用可能
13.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 13 AWS Glue DataBrew の使い方
14.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 14 プロジェクト データセットのクリーンアップや正規化などの変換に関するステップをまとめた レシピを作成するためのワークスペース データセット AWS Glue DataBrew が接続する、フィールド (列) を持つデータの集合 レシピ データ変換ステップの一連のセット ジョブ データセットに対してレシピを適用して変換処理を行うもの (レシピジョブ) データセットの統計に関するプロファイルを作成するもの (プロファイルジョブ) AWS Glue DataBrew 用語の紹介
15.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 15 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
16.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 16 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
17.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 17 IAM おさらい https://www.slideshare.net/AmazonWebServicesJapan/20190129-aws-black-belt-online-seminar-aws-identity-and-access-management-iam-part1 https://www.slideshare.net/AmazonWebServicesJapan/20190130-aws-black-belt-online-seminar-aws-identity-and-access-management-aws-iam-part2 事前準備 データ変換処理の作成 ジョブの実行 ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー どのリソースにどの操作を許 可するか権限を定義する グループ内のユーザに対して 特定の権限を付与する ログインと特定の権限 を付与する IAM ロール 特定のユーザや AWS サービ スに対して権限を委任する
18.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 18 1. AWS Glue DataBrew の利用者が 認証に使用するための IAM ユーザー/グループ および IAM ユーザー/グループにアタッチする IAM ポリシー 2. AWS Glue DataBrew サービス自体が 他の AWS サービスにアクセスする際に使用する IAM ロール および IAM ロールにアタッチする IAM ポリシー 事前準備として必要なもの https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html
19.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 19 IAM ユーザー/グループ準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Management Console AWS Command Line Interface (AWS CLI) AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー IAM グループ IAM ユーザー IAM ユーザー IAM ユーザー ・・・ AWS マネージメントコンソールやコマンドラインインターフェース (CLI) から AWS Glue DataBrew に接続するための IAM ユーザー/グループを準備(作成) IAM ユーザー/グループに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ポリシーを IAM ユーザー/グループにアタッチ 2 3 1
20.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 20 IAM ロール準備 https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/setting-up.html 事前準備 データ変換処理の作成 ジョブの実行 AWS Glue DataBrew ・・・ Optional top-level elements Statement Statement IAM ポリシー ・・・ AWS Glue DataBrew からアクセスが 必要な他の AWS サービスへのアクセ ス権限を定義した IAM ロールを準備 (作成) IAM ロールに アタッチする必要な権限が 揃った IAM ポリシーを作成 IAM ロール Amazon Simple Storage Service (S3) AWS Glue AWS Key Management Service (AWS KMS) 1 IAM ポリシーを IAM ロールにアタッチ 3 2
21.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 21 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
22.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 22 マネージメントコンソールに AWS Glue DataBrew の操作権限を持った IAM ユーザーでアクセスしてプロジェクトを作成する プロジェクトの作成 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行
23.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 23 プロジェクトは、特定のデータセットに対する変換ステップを定義する ”レシピ”を作成するためのワークスペース プロジェクトとは 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
24.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 24 プロジェクト作成手順① レシピとデータセット レシピ •新しいレシピを作成 •既存のレシピを編集 •レシピからステップをインポート データセット •マイデータセット •サンプルファイル •新しいデータセット 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/projects.html
25.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 25 プロジェクト作成手順② データセットの選択 加工/変換したいデータを以下の 中から選択 •ローカルファイル •Amazon S3 上のファイル •AWS Glue データカタログ •AWS Data Exchange https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
26.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 26 プロジェクト作成手順③ 行サンプリング/アクセス許可 プロジェクト内で操作するデータ セットの行数をサンプリング可能 データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 https://docs.aws.amazon.com/databrew/latest/dg/projects.html 事前準備 データ変換処理の作成 ジョブの実行 「事前準備」で IAM ロールを 作成した場合はこちらを選択
27.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 27 インプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) *1 拡張子 (圧縮) *1 CSV *2 .csv .csv.gz, .csv.snappy, .csv.lz4, .csv.bz2, .csv.deflate TSV *2 .tsv .tsv.gz, .tsv.snappy, .tsv.lz4, .tsv.bz2, .tsv.deflate Microsoft Excel ワークブック .xlsx 非サポート JSON .json .json.gz, .json.snappy, .json.lz4, .json.bz2, .json.deflate JSON lines .jsonl .jsonl.gz, .jsonl.snappy, .jsonl.lz4, .jsonl.bz2, .jsonl.deflate Apache Parquet .parquet .parquet.gz, .gz.parquet, .parquet.snappy, .snappy.parquet, .parquet.lz4, .lz4.parquet *1 DataBrew は拡張子でファイルフォーマットを判断するため、必ず上記拡張子を使用する *2 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
28.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 28 Amazon S3 上の特定ファイル/フォルダを示す「S3 パス」または 正規表現を用いた「パラメータ化された S3 パス」を指定可能 例 •ある特定のファイルを指定 s3://bucket-name/inventory-data.csv •ある特定のフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/folder-name/ •“2021” を名称に含むフォルダ配下にあるすべてのファイルを指定 s3://bucket-name/<.*>2021<.*>/ Amazon S3 上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
29.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 29 AWS Glue データカタログ経由で以下サービス上のデータと接続可能 •Amazon Redshift •Amazon Aurora MySQL •Amazon Aurora PostgreSQL •Amazon RDS for MySQL •Amazon RDS for PostgreSQL 他 AWS サービス上のデータ https://docs.aws.amazon.com/databrew/latest/dg/datasets.html 事前準備 データ変換処理の作成 ジョブの実行
30.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 30 プロジェクト内でインタラクティブに変換イメージを確認しながら、 データセットに対する変換ステップのコレクションであるレシピを作成 レシピの作成 事前準備 データ変換処理の作成 ジョブの実行 1. 250 種類以上の組み込みの処理から選択 して変換ステップを作成 2. 変換ステップが確定したらレシピを発行 (2) (1) https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
31.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 31 • 作成したレシピは編集・削除でき、バージョン管理も可能 • レシピは YAML/JSON でのダウンロード, JSON のアップロードも可能 レシピの管理 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/recipes.html
32.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 32 代表的な変換処理
33.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 33 データのフィルタリング 事前準備 データ変換処理の作成 ジョブの実行
34.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 34 データの結合 事前準備 データ変換処理の作成 ジョブの実行
35.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 35 データの集計 事前準備 データ変換処理の作成 ジョブの実行
36.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 36 欠損値の補完 事前準備 データ変換処理の作成 ジョブの実行
37.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 37 関数を使った新たな列の作成 事前準備 データ変換処理の作成 ジョブの実行
38.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 38 複数列の統合 事前準備 データ変換処理の作成 ジョブの実行
39.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 39 フラグ値の作成 事前準備 データ変換処理の作成 ジョブの実行
40.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 40 One-hot エンコーディング 事前準備 データ変換処理の作成 ジョブの実行
41.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 41 数値データの正規化 事前準備 データ変換処理の作成 ジョブの実行
42.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 42 AWS Glue DataBrew の使い方 事前準備 (IAM*) データ変換処理の作成 ジョブの実行 * AWS Identity and Access Management • IAM ユーザー/グループ • IAM ロール • IAM ポリシー • プロジェクトの作成 • データセットへの接続 • レシピの作成 • レシピジョブ • プロファイルジョブ
43.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 43 AWS Glue DataBrew には 2 種類のジョブがある •レシピジョブ • データセットに対してレシピを適用して変換処理を行うもの •プロファイルジョブ • データセットの統計に関するプロファイルを作成するもの ジョブを実行しても対象のデータセットを書き換えることはせず、 指定した Amazon S3 上に結果を書き出す ジョブ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
44.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 44 レシピジョブ
45.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 45 レシピジョブの作成手順① データセットに対してレシピを適用して変換処理 ジョブタイプとして 「レシピジョブを作成」を選択 ジョブを実行する対象の •データセット •プロジェクト •レシピ を選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
46.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 46 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブの出力結果のアウトプット ファイルフォーマットや書き出し 先の S3 プレフィックスを指定 パーティションの設定や ファイルの上書きオプション、 暗号化設定も指定することが可能 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
47.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 47 アウトプットファイルのサポートフォーマットと拡張子 サポートされるデータセット フォーマット 拡張子 (非圧縮) 拡張子 (圧縮) CSV *1 .csv .csv.snappy, .csv.gz, .csv.lz4, csv.bz2, .csv.deflate Apache Parquet 非サポート .parquet.snappy, .parquet.gz, .parquet.lz4, .parquet.lzo AWS Glue Parquet 非サポート .glue.parquet.snappy Apache Avro .avro .avro.snappy, .avro.gz, .avro.lz4, .avro.bz2, .avro.deflate Apache Orc 非サポート .orc.snappy, .orc.lzo, .orc.zlib XML .xml .xml.snappy, .xml.gz, .xml.lz4, .xml.bz2, .xml.deflate JSON (JSON Lines format only) .json .json.snappy, .json.gz, .json.lz4, json.bz2, .json.deflate *1 区切り文字は Comma (,), Colon (:), Semi-colon (;), Pipe (|), Tab (¥t), Caret (^), Space に対応 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html 事前準備 データ変換処理の作成 ジョブの実行
48.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 48 レシピジョブの作成手順② データセットに対してレシピを適用して変換処理 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロジェクト作成時と同じものを選択
49.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 49 データリネージ 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html データのインプットから アウトプットまでの流れを可視化 ジョブの実行状況も確認可能 各アイコンをクリックすることで 詳細情報の確認も可能
50.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 50 プロファイルジョブ
51.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 51 プロファイルジョブの作成手順① データセットの統計に関するプロファイルを作成 ジョブタイプとして 「プロファイルジョブを作成する」 を選択 ジョブを実行する対象の データセットを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
52.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 52 プロファイルジョブの作成手順② データセットの統計に関するプロファイルを作成 データセットの サンプリング件数を指定 •全件 •件数指定 ジョブの出力結果の アウトプットファイルの 書き出し先の S3 プレフィックス を指定 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html
53.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 53 ジョブに割り当てるノード数や タイムアウト、リトライ回数を 指定し、パフォーマンスを調整 することが可能 •ノード数はデフォルト 5, 最大 149 •1 ノード 4 vCPUs, 16GB メモリ データセットに対する アクセス許可を指定 •新しい IAM ロールを作成 •既存の IAM ロールを選択 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/jobs.html プロファイルジョブの作成手順③ データセットの統計に関するプロファイルを作成 プロジェクト作成時と同じものを選択
54.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 54 データプロファイルの生成 事前準備 データ変換処理の作成 ジョブの実行 https://docs.aws.amazon.com/databrew/latest/dg/datasets.html
55.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 55 AWS Glue DataBrew のユースケース
56.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 56 1. Amazon Redshift や Amazon RDS など他の AWS サービス内のデータ をアドホックに探索して整備し、BI レポーティング環境を構築する 2. 定常的に生成するデータのプロファイルチェックを自動化し通知する 3. 機械学習モデルを構築するためのデータを準備する 4. Amazon Athena にクエリして Amazon QuickSight で可視化するため のデータを準備するパイプラインをコーディングレスで構築する AWS Glue DataBrew のユースケース
57.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 57 1. BI レポーティングのためのアドホックデータ分析 Amazon Simple Storage Service (S3) AWS Glue DataBrew Amazon QuickSight S3 Output Bucket Amazon Redshift Amazon RDS Data Catalog Data Sources Amazon Simple Storage Service (S3) Local file
58.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 58 2. AWS Lambda でデータ品質ルールを設定 Amazon Simple Notification Service Amazon EventBridge Email notification AWS Lambda Amazon Simple Storage Service (S3) AWS Glue DataBrew Recurring raw data feed https://aws.amazon.com/jp/blogs/big-data/setting-up-automated-data-quality-workflows-and-alerts-using-aws-glue-databrew-and-aws-lambda/
59.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 59 3. 機械学習のためのデータ前処理 Amazon Simple Storage Service (S3) AWS Glue DataBrew JupyterLab Environment Inference S3 Output Bucket Model Training
60.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 60 JupyterLab 経由で AWS Glue DataBrew に接続可能 •AWS CLI, AWS Jupyter proxy をセットアップ •JupyterLab (v.2.2.6 以降) に aws_glue_databrew_jupyter Extension をインストール •JupyterLab から AWS Glue DataBrew の接続経路はパブリック通信となる JupyterLab Extension https://docs.aws.amazon.com/databrew/latest/dg/jupyter.html Extension インストールで JupyterLab から AWS Glue DataBrew に 直接接続できるようになる
61.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 61 4. ワークフロー内でデータ準備をオーケストレーション AWS Step Functions workflow AWS Glue DataBrew AWS Cloud Amazon Athena AWS Step Functions Amazon EventBridge AWS Glue DataBrew Amazon Simple Notification Service (Amazon SNS) Amazon Athena Amazon Athena Amazon QuickSight AWS Glue Data Catalog マーケティング チーム BI ユーザー https://aws.amazon.com/jp/blogs/big-data/orchestrating-an-aws-glue-databrew-job-and-amazon-athena-query-with-aws-step-functions/ S3 Output Bucket S3 Input Bucket
62.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 62 AWS Step Functions との連携 AWS Glue DataBrew ジョブを AWS Step Functions の ワークフローに統合可能 データのクリーニングや正規化の ステップを、分析や機械学習の ワークフローの一部として オーケストレーション可能に https://docs.aws.amazon.com/step-functions/latest/dg/connect-databrew.html
63.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 63 AWS Glue DataBrew ビジネスアナリスト データサイエンティスト リッチなビジュアルインターフェース によりデータを整形・正規化 250 以上の組み込みの変換機能 を選択し、タスクを自動化 データパターンや異常値を把握するための データプロファイル機能 大規模なデータセットを操作可能 AWS Glue Studio E T L デ ベ ロ ッ パ ー コードを記述せずに ETL ジョブを 視覚的にオーサリング コンソールから数千のジョブを監視 学習コストなしに分散処理を活用 再利用可能なコードを使った高度な変換
64.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 64 AWS Glue DataBrew の料金
65.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 65 • DataBrew ジョブ - $0.48/node/hour •ジョブの実行に使用された AWS Glue DataBrew ノードの数に基づいて 1 時間ごとの料金が発生 •デフォルトでは各ジョブに 5 ノード 割り当てられる •1 ノード 4 vCPUs, 16GB メモリ • DataBrew インタラクティブセッション - $1/30分 •DataBrew プロジェクトを開くとセッションが開始され、 未操作の時間が続いた場合自動的にサスペンド •はじめて DataBrew にアクセスする場合、最初の 40 セッションは無償 AWS Glue DataBrew の料金 https://aws.amazon.com/jp/glue/pricing/
66.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 66 まとめ
67.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 67 • AWS Glue DataBrew は、データのクリーンアップおよび正規化を 最大 80% 高速化するビジュアルデータ準備ツール • データアナリストやサイエンティストが コーディングを行うことなしに、 250 種類以上の組み込みの変換処理を使って データを分析に必要な形に簡単に整形することが可能 • アドホックなデータ探索、データの品質チェック、 機械学習モデル構築の前処理、データ分析パイプライン構築など さまざまなユースケースに活用することが可能 まとめ
68.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 68 Q&A お答えできなかったご質問については AWS Japan Blog https://aws.amazon.com/jp/blogs/news/ に 後日掲載します。
69.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 69 AWS の日本語資料の場所「AWS 資料」で検索 https://amzn.to/JPArchive
70.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 70 で[検索] AWS イベント 毎週”W-A個別技術相談会”を実施中 • AWSのソリューションアーキテクト(SA)に 対策などを相談することも可能 • 申込みはイベント告知サイトから (https://aws.amazon.com/jp/about-aws/events/) AWS Well-Architected 個別技術相談会
71.
© 2021, Amazon
Web Services, Inc. or its Affiliates. 72 AWS 公式 Webinar https://amzn.to/JPWebinar 過去資料 https://amzn.to/JPArchive ご視聴ありがとうございました