SlideShare une entreprise Scribd logo
1  sur  33
Télécharger pour lire hors ligne
1Copylight © Classmethod, Inc.
ビックデータ観点で見た
AWS re:Invent 2016
re:Growth 2016 Sapporo
1
2016.12.14 クラスメソッド株式会社
石川 覚
2Copylight © Classmethod, Inc.
自己紹介
石川 覚 (いしかわ さとる)
• データインテグレーション部
• 昨年インフラエンジニアからビックデータへ
• メーカー系SE、ベンチャーを経てCMに
• AWS全般、Redshift,Tableau,EMR
• マイブームは Amazon Athena
クラスメソッド株式会社
ソリューションアーキテクト
3Copylight © Classmethod, Inc.
アジェンダ
• 新サービスのピックアップ
Amazon Glue•
Amazon Athena•
最後• に
4Copylight © Classmethod, Inc.
新サービスのピックアップ
5Copylight © Classmethod, Inc.
新サービス
1. AWS Organizations
2. AWS Service Delivery Program
3. AWS Partner Solutions Finder
4. Amazon Aurora PostgreSQL-Compatible Edition
5. Amazon Rekognition
6. Amazon Lex
7. Amazon Polly
8. Amazon Athena
9. Amazon LightSail
10. AWS Greengrass
11. AWS Batch
12. AWS Step Functions
13. AWS CodeBuild
14. AWS X-Ray
15. AWS Pinpoint
16. AWS Shield
17. AWS Glue
18. AWS Personal Health Dashboard
19. …
6Copylight © Classmethod, Inc.
新サービス
1. AWS Organizations
2. AWS Service Delivery Program
3. AWS Partner Solutions Finder
4. Amazon Aurora PostgreSQL-Compatible Edition [Coming Soon]
5. Amazon Rekognition
6. Amazon Lex
7. Amazon Polly
8. Amazon Athena [GA]
9. Amazon LightSail
10. AWS Greengrass
11. AWS Batch [Coming Soon]
12. AWS Step Functions [GA]
13. AWS CodeBuild
14. AWS X-Ray
15. AWS Pinpoint [Coming Soon]
16. AWS Shield
17. AWS Glue [Coming Soon]
18. AWS Personal Health Dashboard
19. …
7Copylight © Classmethod, Inc.
新サービス
1. AWS Organizations
2. AWS Service Delivery Program
3. AWS Partner Solutions Finder
4. Amazon Aurora PostgreSQL-Compatible Edition [Preview]
5. Amazon Rekognition
6. Amazon Lex
7. Amazon Polly
8. Amazon Athena [GA]
9. Amazon LightSail
10. AWS Greengrass
11. AWS Batch [Coming Soon]
12. AWS Step Functions [GA]
13. AWS CodeBuild
14. AWS X-Ray
15. AWS Pinpoint [Coming Soon]
16. AWS Shield
17. AWS Glue [Coming Soon]
18. AWS Personal Health Dashboard
19. …
• 従来のPostgreSQLと比較して2倍
以上のパフォーマンス
• PostgreSQL 9.6.1
• 互換他のAWSサービスとの統合
8Copylight © Classmethod, Inc.
新サービス
1. AWS Organizations
2. AWS Service Delivery Program
3. AWS Partner Solutions Finder
4. Amazon Aurora PostgreSQL-Compatible Edition [Preview]
5. Amazon Rekognition
6. Amazon Lex
7. Amazon Polly
8. Amazon Athena [GA]
9. Amazon LightSail
10. AWS Greengrass
11. AWS Batch [Preview]
12. AWS Step Functions [GA]
13. AWS CodeBuild
14. AWS X-Ray
15. AWS Pinpoint [Coming Soon]
16. AWS Shield
17. AWS Glue [Coming Soon]
18. AWS Personal Health Dashboard
19. …
スケーラブルかつ• 、完全マネージ
ド型バッチ処理サービス
9Copylight © Classmethod, Inc.
新サービス
1. AWS Organizations
2. AWS Service Delivery Program
3. AWS Partner Solutions Finder
4. Amazon Aurora PostgreSQL-Compatible Edition [Preview]
5. Amazon Rekognition
6. Amazon Lex
7. Amazon Polly
8. Amazon Athena [GA]
9. Amazon LightSail
10. AWS Greengrass
11. AWS Batch [Preview]
12. AWS Step Functions [GA]
13. AWS CodeBuild
14. AWS X-Ray
15. AWS Pinpoint [Coming Soon]
16. AWS Shield
17. AWS Glue [Coming Soon]
18. AWS Personal Health Dashboard
19. …
• 視覚的なワークフローを使用して
分散アプリケーションを構築・運
用できるサービス
10Copylight © Classmethod, Inc.
新サービス
1. AWS Organizations
2. AWS Service Delivery Program
3. AWS Partner Solutions Finder
4. Amazon Aurora PostgreSQL-Compatible Edition [Coming Soon]
5. Amazon Rekognition
6. Amazon Lex
7. Amazon Polly
8. Amazon Athena [GA]
9. Amazon LightSail
10. AWS Greengrass
11. AWS Batch [Coming Soon]
12. AWS Step Functions [GA]
13. AWS CodeBuild
14. AWS X-Ray
15. AWS Pinpoint [Coming Soon]
16. AWS Shield
17. AWS Glue [Coming Soon]
18. AWS Personal Health Dashboard
19. …
本日はこの2つをご紹介
11Copylight © Classmethod, Inc.
Amazon Glue
12Copylight © Classmethod, Inc.
AWS Glueとは
『データストア間でデータ移動を簡単に行うため
の完全マネージド型 ETL サービス』
3つの機能を提供
• Data Catalog Job
• Authoring Job
• Execution
困難で時間のかかるデータ検出、変換、マッピン
グ、ジョブスケジューリングのタスクを自動化
13Copylight © Classmethod, Inc.
Data Catalog
『データ検索と型定義を自動化』
• Hiveメタストア互換のメタデータ リポジトリ
• 予め設定していたデータソースのメタ情報を定
期的に取得
データソースの理解、分析用データの準備、デー
タソースから宛先へ信頼性の高いロードを実行
14Copylight © Classmethod, Inc.
Data Catalog
『パーティション情報の自動検知と更新』
15Copylight © Classmethod, Inc.
Job Authoring
『データ連携のロジックを自動生成』
• データ連携のためのPythonコード (PySpark)を
自動生成
• 任意のIDEで改造し、Gitで共有
16Copylight © Classmethod, Inc.
Job Authoring
『データ連携のロジックを自動生成、コード生成』
17Copylight © Classmethod, Inc.
Job Execution
『データドリブン、スケジュールベースにスケー
ラブルなジョブ実行』
18Copylight © Classmethod, Inc.
Coming Soon
19Copylight © Classmethod, Inc.
Amazon Athena
20Copylight © Classmethod, Inc.
Amazon Athena とは
標準SQLを用いてAmazon S3上にあるデータ を
簡単に分析できるインタラクティブなクエリサー
ビス
ザックリ表現で、
「S3のデータに、
直接SQL投げられるサービス」
マネジメントコンソールで• 数アクション
標準• SQLでアドホッククエリ実行
結果• は数秒
21Copylight © Classmethod, Inc.
特長
• すぐ使える、直接クエリできる
– データのロードが不要
– Athenaにデータを移す必要がない
– S3上のファイルにテーブル定義を適用するだけで、
ファイルに変更を加える必要なく、高速にクエリを
実行可能
• サーバレス
– セットアップや管理用インフラは不要
– 高可用性、運用性
• 数秒で結果が得られる
– クエリを自動で並列化し、何百、何千コアに 並列分
散し、高速処理
22Copylight © Classmethod, Inc.
データソース
• 分散SQLエンジンPrestoでクエリ実行
• Hive メタストアがベース(Hive DDL)
• 様々なデータフォーマットに対応
– JSON、CSV、TSV、ログファイル、AWS サービスログ、カス
タム区切りのテキスト、 Apache Parquet、Apache ORC、
AVRO(Coming Soon) 等
• 圧縮フォーマットもサポート
– Snappy、Zlib、GZIP
• 結果はS3に保管される
– s3://aws-athena-query-results-<account-id>-
<region>/Unsaved
– S3_Staging_dir
23Copylight © Classmethod, Inc.
S3
• S3へのストリームデータも対応
複数– ファイルに対応することで実現
Athena• 未対応リージョンのS3に対しても実行
可能
東京– リージョンのバケットに対して利用可能
– 異なるリージョンのデータ転送費用が必要
従量課金•
実行– したクエリのみ課金
24Copylight © Classmethod, Inc.
連携・接続
• Amazon QuickSightとの連携(Coming Soon?)
• JDBC接続
– Amazon Athena用のJDBCドライバはS3で公開済み
– WorkbenchなどSQLクライアントやJavaアプリケー
ションからクエリ実行可能
25Copylight © Classmethod, Inc.
データのパーティショニング
• データを分割することのメリット
– パフォーマンスが向上
– コストを削減
– クエリのスキャンしたデータの量を制限
• 要件
– 想定したルールでパーティションデータを格納
– テーブル定義後、またはパーティションデータ追加
後にパーティション構成の反映が必要
26Copylight © Classmethod, Inc.
データのパーティショニング
パ• ーティション化されている場合
フォルダが– 「/<カラム名>=<分割文字列>」形式
テーブル– 定義で PARTITIONED BY (dt string)
テーブル– 定義後 MSCK REPAIR TABLE <テーブル名
>;を実行
パ• ーティションの考慮がない場合(ELBログ等)
フォルダが– 「/YYYY/MM/DD」のような場合
パーティションデータ– 毎に ALTER TABLE
elb_logs_raw_native_part ADD PARTITION
(year=‘2015’,month=‘01’,day=‘01’) location
‘s3://athena-
examples/elb/plaintext/2015/01/01/‘;を実行
27Copylight © Classmethod, Inc.
利用費
• 実行したクエリのみに対する課金
• 各クエリでスキャンされたデータ量
• S3上のデータ1TBスキャン毎に$5
• 失敗クエリは課金対象外
• 異なるリージョンのデータ転送費用が必要
例. 0.33TBのデータスキャンに対して「$1.67」
$1.67 = 0.33TB * $5/TB
28Copylight © Classmethod, Inc.
利用費削減のポイント
• データ圧縮
• カラムナフォーマット
– Parquet等の利用でデータ転送量を縮小し、
データスキャンを縮小
– (必ずしもParquetの方が速くなる訳では無い)
• パーティショニング
– スキャン対象を指定
利用費削減 ≒ スキャン対象の削減
29Copylight © Classmethod, Inc.
Athenaの利用用途
データレイク• (in S3)のデータ分析向け
実行頻度• の少ない大きなデータのクエリで強み
が活かされる
ETL• 済みデータの参照用途での利用が想定され
ている
JDBC• ドライバ経由の参照
更新系• クエリに対応していないので、一時テー
ブル、中間テーブルが利用しないで済む用途
30Copylight © Classmethod, Inc.
適切な選択
• Amazon Redshift
– データウェアハウス
– 膨大な構造化データに対して複雑なクエリに対して
高速に 結果を得られる
• Amazon EMR
– Hadoop, Spark, Presto等の利用
– これらの分散処理フレームワークを効率的に高いコ
スト効率で利用できる
• Amazon Athena
– データレイク(in S3)
– S3へのアドホッククエリを実行する最も簡単な方法
要件や環境に応じた最適な選択
31Copylight © Classmethod, Inc.
今すぐ、ご利用可能です! [GA]
32Copylight © Classmethod, Inc.
最後に
データレイクは• Amazon Athena、データウェア
ハウスは Amazon Redshift
高度• かつ大規模なデータ分析は Amazon EMR
これらを• 効果的に連携するのが、Amazon Glue
Hadoopのエコシステムを活用して、ストレージと
コンピューティングを分離した費用対効果の高い
データ分析基盤の提供が可能になりました。
33Copylight © Classmethod, Inc.
ご清聴ありがとうございました。

Contenu connexe

Tendances

20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...
20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...
20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...
都元ダイスケ Miyamoto
 
Developers.io meetup 01 2013/12/10
Developers.io meetup 01 2013/12/10Developers.io meetup 01 2013/12/10
Developers.io meetup 01 2013/12/10
Tomonari Fukuda
 
サーバレスで分析基盤〜ブートキャンプに参加してみた〜
サーバレスで分析基盤〜ブートキャンプに参加してみた〜サーバレスで分析基盤〜ブートキャンプに参加してみた〜
サーバレスで分析基盤〜ブートキャンプに参加してみた〜
Y K
 

Tendances (20)

Awsで作るビッグデータ解析今とこれから
Awsで作るビッグデータ解析今とこれからAwsで作るビッグデータ解析今とこれから
Awsで作るビッグデータ解析今とこれから
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
Kinesis Analyticsの適用できない用途と、Kinesis Firehoseの苦労話
 
re:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデートre:invent 2018 analytics関連アップデート
re:invent 2018 analytics関連アップデート
 
Global Network on Alibaba Cloud
Global Network on Alibaba CloudGlobal Network on Alibaba Cloud
Global Network on Alibaba Cloud
 
ビックデータ最適解とAWSにおける新しい武器
ビックデータ最適解とAWSにおける新しい武器ビックデータ最適解とAWSにおける新しい武器
ビックデータ最適解とAWSにおける新しい武器
 
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
実案件で見る データ分析用AWS基盤の構築方法 - Developers.IO 2017 (20170701)
 
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
 
スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤スマートニュースの世界展開を支えるログ解析基盤
スマートニュースの世界展開を支えるログ解析基盤
 
Aurora新時代の幕開けとDynamoDBの進化
Aurora新時代の幕開けとDynamoDBの進化Aurora新時代の幕開けとDynamoDBの進化
Aurora新時代の幕開けとDynamoDBの進化
 
Lambda in java_20160121
Lambda in java_20160121Lambda in java_20160121
Lambda in java_20160121
 
Oracleからamazon auroraへの移行にむけて
Oracleからamazon auroraへの移行にむけてOracleからamazon auroraへの移行にむけて
Oracleからamazon auroraへの移行にむけて
 
20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...
20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...
20131210 CM re:Growth - Infrastructure as Code から Full Reproducible Infrastru...
 
Kinesis Firehoseを使ってみた
Kinesis Firehoseを使ってみたKinesis Firehoseを使ってみた
Kinesis Firehoseを使ってみた
 
Developers.io meetup 01 2013/12/10
Developers.io meetup 01 2013/12/10Developers.io meetup 01 2013/12/10
Developers.io meetup 01 2013/12/10
 
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS GlueModernizing Big Data Workload Using Amazon EMR & AWS Glue
Modernizing Big Data Workload Using Amazon EMR & AWS Glue
 
クラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターンクラウド上のデータ活用デザインパターン
クラウド上のデータ活用デザインパターン
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
サーバレスで分析基盤〜ブートキャンプに参加してみた〜
サーバレスで分析基盤〜ブートキャンプに参加してみた〜サーバレスで分析基盤〜ブートキャンプに参加してみた〜
サーバレスで分析基盤〜ブートキャンプに参加してみた〜
 
Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介Pydata Amazon Kinesisのご紹介
Pydata Amazon Kinesisのご紹介
 

Similaire à 20161214 re growth-sapporo

Similaire à 20161214 re growth-sapporo (20)

Gaming cicd-pipeline gaming-technight-2
Gaming cicd-pipeline gaming-technight-2Gaming cicd-pipeline gaming-technight-2
Gaming cicd-pipeline gaming-technight-2
 
[AWS Developers Meetup 2017] Developerのための ライブAWSウォークスルー 〜 AWS SDKの使い方 〜
[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜[AWS Developers Meetup 2017] DeveloperのためのライブAWSウォークスルー 〜 AWS SDKの使い方 〜
[AWS Developers Meetup 2017] Developerのための ライブAWSウォークスルー 〜 AWS SDKの使い方 〜
 
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
(AWS DevOps祭り 2018) AWS Management Toolsサービスアプデートのご紹介
 
Presto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon AthenaPresto ベースのマネージドサービス Amazon Athena
Presto ベースのマネージドサービス Amazon Athena
 
開発者におくるサーバーレスモニタリング
開発者におくるサーバーレスモニタリング開発者におくるサーバーレスモニタリング
開発者におくるサーバーレスモニタリング
 
ATC301 AWS re:Invent 2017/11/27 - 1 Million Bids in 100ms - Using AWS to Powe...
ATC301 AWS re:Invent 2017/11/27 - 1 Million Bids in 100ms - Using AWS to Powe...ATC301 AWS re:Invent 2017/11/27 - 1 Million Bids in 100ms - Using AWS to Powe...
ATC301 AWS re:Invent 2017/11/27 - 1 Million Bids in 100ms - Using AWS to Powe...
 
AWS re:Invent2017で見た AWSの強さとは
AWS re:Invent2017で見た AWSの強さとは AWS re:Invent2017で見た AWSの強さとは
AWS re:Invent2017で見た AWSの強さとは
 
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めようAWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
AWS Black Belt Online Seminar AWSサービスを利用したアプリケーション開発を始めよう
 
GraphQL入門 (AWS AppSync)
GraphQL入門 (AWS AppSync)GraphQL入門 (AWS AppSync)
GraphQL入門 (AWS AppSync)
 
Reinvent2017 recap-overview-pdf
Reinvent2017 recap-overview-pdfReinvent2017 recap-overview-pdf
Reinvent2017 recap-overview-pdf
 
20180613 AWS Black Belt Online Seminar AWS Cloud9 入門
20180613 AWS Black Belt Online Seminar AWS Cloud9 入門20180613 AWS Black Belt Online Seminar AWS Cloud9 入門
20180613 AWS Black Belt Online Seminar AWS Cloud9 入門
 
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法
 
PHP開発者のためのNoSQL入門
PHP開発者のためのNoSQL入門PHP開発者のためのNoSQL入門
PHP開発者のためのNoSQL入門
 
Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18Microsoft open tech night 2020 feb18
Microsoft open tech night 2020 feb18
 
The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発
 
サーバーレスの今とこれから
サーバーレスの今とこれからサーバーレスの今とこれから
サーバーレスの今とこれから
 
AWS Black Belt Techシリーズ AWS Data Pipeline
AWS Black Belt Techシリーズ  AWS Data PipelineAWS Black Belt Techシリーズ  AWS Data Pipeline
AWS Black Belt Techシリーズ AWS Data Pipeline
 
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services
 
DevOps with Dynatrace
DevOps with DynatraceDevOps with Dynatrace
DevOps with Dynatrace
 

Plus de Satoru Ishikawa

Running Amazon S3 Encryption
Running Amazon S3 EncryptionRunning Amazon S3 Encryption
Running Amazon S3 Encryption
Satoru Ishikawa
 
Cloud Programing for beginner
Cloud Programing for beginnerCloud Programing for beginner
Cloud Programing for beginner
Satoru Ishikawa
 

Plus de Satoru Ishikawa (13)

データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House ArchitectureBigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!Re invent 2017 データベースサービス総復習!
Re invent 2017 データベースサービス総復習!
 
Classmethod awsstudy ec2rds20160114
Classmethod awsstudy ec2rds20160114Classmethod awsstudy ec2rds20160114
Classmethod awsstudy ec2rds20160114
 
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
re:Growth ビッグデータ観点で見た AWS re:Invent 2015re:Growth ビッグデータ観点で見た AWS re:Invent 2015
re:Growth ビッグデータ観点で見た AWS re:Invent 2015
 
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911pdb-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
 
Cmdevio2015 devday-g-3
Cmdevio2015 devday-g-3Cmdevio2015 devday-g-3
Cmdevio2015 devday-g-3
 
Cm re growth-devio-mtup11-sapporo-004
Cm re growth-devio-mtup11-sapporo-004Cm re growth-devio-mtup11-sapporo-004
Cm re growth-devio-mtup11-sapporo-004
 
Running Amazon S3 Encryption
Running Amazon S3 EncryptionRunning Amazon S3 Encryption
Running Amazon S3 Encryption
 
Cloud Programing for beginner
Cloud Programing for beginnerCloud Programing for beginner
Cloud Programing for beginner
 

20161214 re growth-sapporo

  • 1. 1Copylight © Classmethod, Inc. ビックデータ観点で見た AWS re:Invent 2016 re:Growth 2016 Sapporo 1 2016.12.14 クラスメソッド株式会社 石川 覚
  • 2. 2Copylight © Classmethod, Inc. 自己紹介 石川 覚 (いしかわ さとる) • データインテグレーション部 • 昨年インフラエンジニアからビックデータへ • メーカー系SE、ベンチャーを経てCMに • AWS全般、Redshift,Tableau,EMR • マイブームは Amazon Athena クラスメソッド株式会社 ソリューションアーキテクト
  • 3. 3Copylight © Classmethod, Inc. アジェンダ • 新サービスのピックアップ Amazon Glue• Amazon Athena• 最後• に
  • 4. 4Copylight © Classmethod, Inc. 新サービスのピックアップ
  • 5. 5Copylight © Classmethod, Inc. 新サービス 1. AWS Organizations 2. AWS Service Delivery Program 3. AWS Partner Solutions Finder 4. Amazon Aurora PostgreSQL-Compatible Edition 5. Amazon Rekognition 6. Amazon Lex 7. Amazon Polly 8. Amazon Athena 9. Amazon LightSail 10. AWS Greengrass 11. AWS Batch 12. AWS Step Functions 13. AWS CodeBuild 14. AWS X-Ray 15. AWS Pinpoint 16. AWS Shield 17. AWS Glue 18. AWS Personal Health Dashboard 19. …
  • 6. 6Copylight © Classmethod, Inc. 新サービス 1. AWS Organizations 2. AWS Service Delivery Program 3. AWS Partner Solutions Finder 4. Amazon Aurora PostgreSQL-Compatible Edition [Coming Soon] 5. Amazon Rekognition 6. Amazon Lex 7. Amazon Polly 8. Amazon Athena [GA] 9. Amazon LightSail 10. AWS Greengrass 11. AWS Batch [Coming Soon] 12. AWS Step Functions [GA] 13. AWS CodeBuild 14. AWS X-Ray 15. AWS Pinpoint [Coming Soon] 16. AWS Shield 17. AWS Glue [Coming Soon] 18. AWS Personal Health Dashboard 19. …
  • 7. 7Copylight © Classmethod, Inc. 新サービス 1. AWS Organizations 2. AWS Service Delivery Program 3. AWS Partner Solutions Finder 4. Amazon Aurora PostgreSQL-Compatible Edition [Preview] 5. Amazon Rekognition 6. Amazon Lex 7. Amazon Polly 8. Amazon Athena [GA] 9. Amazon LightSail 10. AWS Greengrass 11. AWS Batch [Coming Soon] 12. AWS Step Functions [GA] 13. AWS CodeBuild 14. AWS X-Ray 15. AWS Pinpoint [Coming Soon] 16. AWS Shield 17. AWS Glue [Coming Soon] 18. AWS Personal Health Dashboard 19. … • 従来のPostgreSQLと比較して2倍 以上のパフォーマンス • PostgreSQL 9.6.1 • 互換他のAWSサービスとの統合
  • 8. 8Copylight © Classmethod, Inc. 新サービス 1. AWS Organizations 2. AWS Service Delivery Program 3. AWS Partner Solutions Finder 4. Amazon Aurora PostgreSQL-Compatible Edition [Preview] 5. Amazon Rekognition 6. Amazon Lex 7. Amazon Polly 8. Amazon Athena [GA] 9. Amazon LightSail 10. AWS Greengrass 11. AWS Batch [Preview] 12. AWS Step Functions [GA] 13. AWS CodeBuild 14. AWS X-Ray 15. AWS Pinpoint [Coming Soon] 16. AWS Shield 17. AWS Glue [Coming Soon] 18. AWS Personal Health Dashboard 19. … スケーラブルかつ• 、完全マネージ ド型バッチ処理サービス
  • 9. 9Copylight © Classmethod, Inc. 新サービス 1. AWS Organizations 2. AWS Service Delivery Program 3. AWS Partner Solutions Finder 4. Amazon Aurora PostgreSQL-Compatible Edition [Preview] 5. Amazon Rekognition 6. Amazon Lex 7. Amazon Polly 8. Amazon Athena [GA] 9. Amazon LightSail 10. AWS Greengrass 11. AWS Batch [Preview] 12. AWS Step Functions [GA] 13. AWS CodeBuild 14. AWS X-Ray 15. AWS Pinpoint [Coming Soon] 16. AWS Shield 17. AWS Glue [Coming Soon] 18. AWS Personal Health Dashboard 19. … • 視覚的なワークフローを使用して 分散アプリケーションを構築・運 用できるサービス
  • 10. 10Copylight © Classmethod, Inc. 新サービス 1. AWS Organizations 2. AWS Service Delivery Program 3. AWS Partner Solutions Finder 4. Amazon Aurora PostgreSQL-Compatible Edition [Coming Soon] 5. Amazon Rekognition 6. Amazon Lex 7. Amazon Polly 8. Amazon Athena [GA] 9. Amazon LightSail 10. AWS Greengrass 11. AWS Batch [Coming Soon] 12. AWS Step Functions [GA] 13. AWS CodeBuild 14. AWS X-Ray 15. AWS Pinpoint [Coming Soon] 16. AWS Shield 17. AWS Glue [Coming Soon] 18. AWS Personal Health Dashboard 19. … 本日はこの2つをご紹介
  • 11. 11Copylight © Classmethod, Inc. Amazon Glue
  • 12. 12Copylight © Classmethod, Inc. AWS Glueとは 『データストア間でデータ移動を簡単に行うため の完全マネージド型 ETL サービス』 3つの機能を提供 • Data Catalog Job • Authoring Job • Execution 困難で時間のかかるデータ検出、変換、マッピン グ、ジョブスケジューリングのタスクを自動化
  • 13. 13Copylight © Classmethod, Inc. Data Catalog 『データ検索と型定義を自動化』 • Hiveメタストア互換のメタデータ リポジトリ • 予め設定していたデータソースのメタ情報を定 期的に取得 データソースの理解、分析用データの準備、デー タソースから宛先へ信頼性の高いロードを実行
  • 14. 14Copylight © Classmethod, Inc. Data Catalog 『パーティション情報の自動検知と更新』
  • 15. 15Copylight © Classmethod, Inc. Job Authoring 『データ連携のロジックを自動生成』 • データ連携のためのPythonコード (PySpark)を 自動生成 • 任意のIDEで改造し、Gitで共有
  • 16. 16Copylight © Classmethod, Inc. Job Authoring 『データ連携のロジックを自動生成、コード生成』
  • 17. 17Copylight © Classmethod, Inc. Job Execution 『データドリブン、スケジュールベースにスケー ラブルなジョブ実行』
  • 18. 18Copylight © Classmethod, Inc. Coming Soon
  • 19. 19Copylight © Classmethod, Inc. Amazon Athena
  • 20. 20Copylight © Classmethod, Inc. Amazon Athena とは 標準SQLを用いてAmazon S3上にあるデータ を 簡単に分析できるインタラクティブなクエリサー ビス ザックリ表現で、 「S3のデータに、 直接SQL投げられるサービス」 マネジメントコンソールで• 数アクション 標準• SQLでアドホッククエリ実行 結果• は数秒
  • 21. 21Copylight © Classmethod, Inc. 特長 • すぐ使える、直接クエリできる – データのロードが不要 – Athenaにデータを移す必要がない – S3上のファイルにテーブル定義を適用するだけで、 ファイルに変更を加える必要なく、高速にクエリを 実行可能 • サーバレス – セットアップや管理用インフラは不要 – 高可用性、運用性 • 数秒で結果が得られる – クエリを自動で並列化し、何百、何千コアに 並列分 散し、高速処理
  • 22. 22Copylight © Classmethod, Inc. データソース • 分散SQLエンジンPrestoでクエリ実行 • Hive メタストアがベース(Hive DDL) • 様々なデータフォーマットに対応 – JSON、CSV、TSV、ログファイル、AWS サービスログ、カス タム区切りのテキスト、 Apache Parquet、Apache ORC、 AVRO(Coming Soon) 等 • 圧縮フォーマットもサポート – Snappy、Zlib、GZIP • 結果はS3に保管される – s3://aws-athena-query-results-<account-id>- <region>/Unsaved – S3_Staging_dir
  • 23. 23Copylight © Classmethod, Inc. S3 • S3へのストリームデータも対応 複数– ファイルに対応することで実現 Athena• 未対応リージョンのS3に対しても実行 可能 東京– リージョンのバケットに対して利用可能 – 異なるリージョンのデータ転送費用が必要 従量課金• 実行– したクエリのみ課金
  • 24. 24Copylight © Classmethod, Inc. 連携・接続 • Amazon QuickSightとの連携(Coming Soon?) • JDBC接続 – Amazon Athena用のJDBCドライバはS3で公開済み – WorkbenchなどSQLクライアントやJavaアプリケー ションからクエリ実行可能
  • 25. 25Copylight © Classmethod, Inc. データのパーティショニング • データを分割することのメリット – パフォーマンスが向上 – コストを削減 – クエリのスキャンしたデータの量を制限 • 要件 – 想定したルールでパーティションデータを格納 – テーブル定義後、またはパーティションデータ追加 後にパーティション構成の反映が必要
  • 26. 26Copylight © Classmethod, Inc. データのパーティショニング パ• ーティション化されている場合 フォルダが– 「/<カラム名>=<分割文字列>」形式 テーブル– 定義で PARTITIONED BY (dt string) テーブル– 定義後 MSCK REPAIR TABLE <テーブル名 >;を実行 パ• ーティションの考慮がない場合(ELBログ等) フォルダが– 「/YYYY/MM/DD」のような場合 パーティションデータ– 毎に ALTER TABLE elb_logs_raw_native_part ADD PARTITION (year=‘2015’,month=‘01’,day=‘01’) location ‘s3://athena- examples/elb/plaintext/2015/01/01/‘;を実行
  • 27. 27Copylight © Classmethod, Inc. 利用費 • 実行したクエリのみに対する課金 • 各クエリでスキャンされたデータ量 • S3上のデータ1TBスキャン毎に$5 • 失敗クエリは課金対象外 • 異なるリージョンのデータ転送費用が必要 例. 0.33TBのデータスキャンに対して「$1.67」 $1.67 = 0.33TB * $5/TB
  • 28. 28Copylight © Classmethod, Inc. 利用費削減のポイント • データ圧縮 • カラムナフォーマット – Parquet等の利用でデータ転送量を縮小し、 データスキャンを縮小 – (必ずしもParquetの方が速くなる訳では無い) • パーティショニング – スキャン対象を指定 利用費削減 ≒ スキャン対象の削減
  • 29. 29Copylight © Classmethod, Inc. Athenaの利用用途 データレイク• (in S3)のデータ分析向け 実行頻度• の少ない大きなデータのクエリで強み が活かされる ETL• 済みデータの参照用途での利用が想定され ている JDBC• ドライバ経由の参照 更新系• クエリに対応していないので、一時テー ブル、中間テーブルが利用しないで済む用途
  • 30. 30Copylight © Classmethod, Inc. 適切な選択 • Amazon Redshift – データウェアハウス – 膨大な構造化データに対して複雑なクエリに対して 高速に 結果を得られる • Amazon EMR – Hadoop, Spark, Presto等の利用 – これらの分散処理フレームワークを効率的に高いコ スト効率で利用できる • Amazon Athena – データレイク(in S3) – S3へのアドホッククエリを実行する最も簡単な方法 要件や環境に応じた最適な選択
  • 31. 31Copylight © Classmethod, Inc. 今すぐ、ご利用可能です! [GA]
  • 32. 32Copylight © Classmethod, Inc. 最後に データレイクは• Amazon Athena、データウェア ハウスは Amazon Redshift 高度• かつ大規模なデータ分析は Amazon EMR これらを• 効果的に連携するのが、Amazon Glue Hadoopのエコシステムを活用して、ストレージと コンピューティングを分離した費用対効果の高い データ分析基盤の提供が可能になりました。
  • 33. 33Copylight © Classmethod, Inc. ご清聴ありがとうございました。