Soumettre la recherche
Mettre en ligne
5分ではじめるApache Spark on AWS
•
Télécharger en tant que PPTX, PDF
•
0 j'aime
•
75 vues
Noritaka Sekiyama
Suivre
JAWSDAYS 2022の"AWS SA/エキスパート怒濤のLTチャレンジ"で発表したSpark on AWSのLTです。
Lire moins
Lire la suite
Logiciels
Signaler
Partager
Signaler
Partager
1 sur 15
Télécharger maintenant
Recommandé
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
AWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
Amazon Web Services Japan
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
Amazon Web Services Japan
20210316 AWS Black Belt Online Seminar AWS DataSync
20210316 AWS Black Belt Online Seminar AWS DataSync
Amazon Web Services Japan
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
Denodo
20170705 blackbelt AWS Lambda
20170705 blackbelt AWS Lambda
Amazon Web Services Japan
[AWSマイスターシリーズ] AWS CloudFormation
[AWSマイスターシリーズ] AWS CloudFormation
Amazon Web Services Japan
Recommandé
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
Amazon Web Services Japan
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
Amazon Web Services Japan
AWS Black Belt - AWS Glue
AWS Black Belt - AWS Glue
Amazon Web Services Japan
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
Amazon Web Services Japan
20210316 AWS Black Belt Online Seminar AWS DataSync
20210316 AWS Black Belt Online Seminar AWS DataSync
Amazon Web Services Japan
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
AWS と Denodo で実現するデータ活用基盤 - データ民主化を加速するクラウド活用のポイント
Denodo
20170705 blackbelt AWS Lambda
20170705 blackbelt AWS Lambda
Amazon Web Services Japan
[AWSマイスターシリーズ] AWS CloudFormation
[AWSマイスターシリーズ] AWS CloudFormation
Amazon Web Services Japan
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
Amazon Web Services Japan
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
Amazon Web Services Japan
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Web Services Japan
Sparkにプルリク投げてみた
Sparkにプルリク投げてみた
Noritaka Sekiyama
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
Amazon Web Services Japan
成長していくサービスとAWS
成長していくサービスとAWS
Mitsuharu Hamba
AWS re:Invent 2018 アップデート紹介 re:Invent Media & Entertainment Launches
AWS re:Invent 2018 アップデート紹介 re:Invent Media & Entertainment Launches
Amazon Web Services Japan
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
Atsushi Fukui
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Amazon Web Services Japan
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Amazon Web Services Japan
Security Operations and Automation on AWS
Security Operations and Automation on AWS
Noritaka Sekiyama
Snowflake on AWSのターゲットエンドポイントとしての利用
Snowflake on AWSのターゲットエンドポイントとしての利用
QlikPresalesJapan
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
Amazon Web Services Japan
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
Amazon Web Services Japan
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
Amazon Web Services Japan
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
Yukitaka Ohmura
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
Takanori Ohba
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
Amazon Web Services Japan
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話
Noritaka Sekiyama
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
Noritaka Sekiyama
Contenu connexe
Similaire à 5分ではじめるApache Spark on AWS
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
Amazon Web Services Japan
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
Amazon Web Services Japan
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Web Services Japan
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Web Services Japan
Sparkにプルリク投げてみた
Sparkにプルリク投げてみた
Noritaka Sekiyama
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
Amazon Web Services Japan
成長していくサービスとAWS
成長していくサービスとAWS
Mitsuharu Hamba
AWS re:Invent 2018 アップデート紹介 re:Invent Media & Entertainment Launches
AWS re:Invent 2018 アップデート紹介 re:Invent Media & Entertainment Launches
Amazon Web Services Japan
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
Atsushi Fukui
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Amazon Web Services Japan
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Amazon Web Services Japan
Security Operations and Automation on AWS
Security Operations and Automation on AWS
Noritaka Sekiyama
Snowflake on AWSのターゲットエンドポイントとしての利用
Snowflake on AWSのターゲットエンドポイントとしての利用
QlikPresalesJapan
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
Amazon Web Services Japan
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
Amazon Web Services Japan
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
Amazon Web Services Japan
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
Yukitaka Ohmura
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
Takanori Ohba
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
Amazon Web Services Japan
Similaire à 5分ではじめるApache Spark on AWS
(20)
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20180425 AWS Black Belt Online Seminar Amazon Relational Database Service (Am...
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
20210216 AWS Black Belt Online Seminar AWS Database Migration Service
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
Sparkにプルリク投げてみた
Sparkにプルリク投げてみた
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
成長していくサービスとAWS
成長していくサービスとAWS
AWS re:Invent 2018 アップデート紹介 re:Invent Media & Entertainment Launches
AWS re:Invent 2018 アップデート紹介 re:Invent Media & Entertainment Launches
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Security Operations and Automation on AWS
Security Operations and Automation on AWS
Snowflake on AWSのターゲットエンドポイントとしての利用
Snowflake on AWSのターゲットエンドポイントとしての利用
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
AWS Wavelengthと大阪リージョンのご紹介20210414
AWS Wavelengthと大阪リージョンのご紹介20210414
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[JAWS Days 2020] AWS Well-Architected フレームワークのご紹介
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
[よくわかるクラウドデータベース] CassandraからAmazon DynamoDBへの移行事例
Plus de Noritaka Sekiyama
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話
Noritaka Sekiyama
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
Noritaka Sekiyama
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Noritaka Sekiyama
Running Apache Spark on AWS
Running Apache Spark on AWS
Noritaka Sekiyama
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
Noritaka Sekiyama
S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話
Noritaka Sekiyama
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Noritaka Sekiyama
Introduction to New CloudWatch Agent
Introduction to New CloudWatch Agent
Noritaka Sekiyama
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama
運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips
Noritaka Sekiyama
基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト
Noritaka Sekiyama
Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?
Noritaka Sekiyama
Plus de Noritaka Sekiyama
(12)
VPC Reachability Analyzer 使って人生が変わった話
VPC Reachability Analyzer 使って人生が変わった話
AWS で Presto を徹底的に使いこなすワザ
AWS で Presto を徹底的に使いこなすワザ
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Running Apache Spark on AWS
Running Apache Spark on AWS
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Introduction to New CloudWatch Agent
Introduction to New CloudWatch Agent
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
運用視点でのAWSサポート利用Tips
運用視点でのAWSサポート利用Tips
基礎から学ぶ? EC2マルチキャスト
基礎から学ぶ? EC2マルチキャスト
Floodlightってぶっちゃけどうなの?
Floodlightってぶっちゃけどうなの?
5分ではじめるApache Spark on AWS
1.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 5分ではじめる Spark on AWS Noritaka Sekiyama Principal Big Data Architect, AWS Glue
2.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 関山 宜孝 Principal Big Data Architect, AWS Glue • 5年間 AWS サポートにて技術支援を担当 • 2019年からGlue開発チームにジョイン @moomindani moomindani
3.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. こんなことありませんか? 3 CSVファイルを JSONに変換したい ファイルから文字列を 検索・集計したい データベースからデータを 抽出してファイルに書き出したい CSV ファイルを 特定のカラムでソートしたい Amazon S3 上のデータを Amazon DynamoDB に移動したい
4.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. CSVファイルをJSONに変換したい 4 import pandas as pd df = pd.read_csv("s3://amazon-reviews-pds/tsv/sample_us.tsv", sep='t') df.to_json("sample_us.json") import json import csv import s3fs json_list = [] json_data = {} fs = s3fs.S3FileSystem(anon=True) with fs.open('amazon-reviews-pds/tsv/sample_us.tsv', 'r') as f: for line in csv.DictReader(f, delimiter='t’): json_list.append(line) json_data["data"] = json_list with open('sample_us.json', 'w') as f: json.dump(json_data, f)
5.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. CSVファイルをJSONに変換したい 5 データサイズ 圧縮形式 処理時間 15 KB 非圧縮 2 秒 442 MB gzip 719 秒 2.7 GB gzip 5336 秒 • Macbook Pro 2019, Python 3.7.2 • Pandas による CSV->JSON 変換 • us-east-1 上の S3 バケット (Public Dataset) を使用
6.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. データが大きいと・・・? 6 100GBのCSVファイルを JSONに変換したい 1TBのファイルから文字列を 検索・集計したい データベースから1TBのデータを 抽出してファイルに書き出したい 100GBのCSV ファイルを 特定のカラムでソートしたい Amazon S3 上の1TBのデータを Amazon DynamoDB に移動したい
7.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. AWS で分散処理! 7 AWS Glue Amazon Athena Amazon EMR Amazon Redshift
8.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. AWS で分散処理! 8 Amazon Athena Amazon EMR Amazon Redshift AWS Glue
9.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 9
10.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 10
11.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 11
12.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 12
13.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 13
14.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. 14
15.
JAWS DAYS 2022 ©
2022, Amazon Web Services, Inc. or its affiliates. Thank you! © 2022, Amazon Web Services, Inc. or its affiliates. Noritaka Sekiyama @moomindani moomindani
Notes de l'éditeur
AWS Glue, Lake Formation チームの関山と申します。 ビッグデータアーキテクトとしてプロダクトチームで働いており、データレイクに関するサービスサイドの開発や、グローバルのお客様の技術支援を担当しています。 また、先日は「AWSではじめるデータレイクという本」を出版したり、GitHub awslabs にてライブラリやツールなども提供したりもしておりますので、よろしければご覧ください。
Télécharger maintenant