Contenu connexe Similaire à NetflixにおけるPresto/Spark活用事例 (20) Plus de Amazon Web Services Japan (20) NetflixにおけるPresto/Spark活用事例2. 2
Amazon EMR - 1クリックでHadoop/Spark
• 分散処理基盤
– クラスタを簡単に構築
して破棄
• 分散処理アプリ
– 使いたいアプリを選ぶ
だけ
• Hadoop 2.7.1
• Hive 1.0.0
• Pig 0.14.0
• Mahout 0.11.0
• Oozie 4.2.0
• Spark 1.6.0
• Presto 0.130
• Zeppelin 0.5.5
• Hue 3.7.1更新の速い(ほぼ月1ペース)
ディストリビューション
3. 3
Amazon EMR - 1クリックでHadoop/Spark
• 分散処理基盤
– クラスタを簡単に構築
して破棄
• 分散処理アプリ
– 使いたいアプリを選ぶ
だけ
• Hadoop 2.7.1
• Hive 1.0.0
• Pig 0.14.0
• Mahout 0.11.0
• Oozie 4.2.0
• Spark 1.6.0
• Presto 0.130
• Zeppelin 0.5.5
• Hue 3.7.1
4. © 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Eva Tse and Daniel Weeks, Netflix
October 2015
BDT303
Running Presto and Spark on the
Netflix
Big Data Platform
13. 我々のデプロイ
Version 0.114
+ いくつかのパッチ
+ 1つの未公開パッチ (Parquet vectorized read integration)
Amazon EMRのBootstrap Actionでデプロイ
Hadoop YARNのクラスタとは別のクラスタ
Hadoopのサービスは使わない
Amazon EMRをクラスタ管理機能として活用
18. デプロイ @ Netflix
Spark on Mesos
• 独自のAMI
• 全てBDAS (Berkeley Data Analytics Stack)
• オンラインストリーム分析
Spark on YARN
• Spark as a service
• Amazon EMR上のYARNのアプリケーション
• オフラインのバッチ分析
21. 複数バージョンをサポート
$ spark-shell –ver 1.5 …
s3://…/spark-1.4.tar.gz
s3://…/spark-1.5.tar.gz
s3://…/spark-1.5-custom.tar.gz
s3://…/1.5/spark-defaults.conf
s3://…/h2prod/yarn-site.xml
s3://../h2prod/core-site.xml
…
設定アプリケーション
22. 22
Summary
• Amazon EMR + Amazon S3
– コンピュートとストレージを分離
– 25 PBのAmazon S3のデータをAmazon EMRのクラスタから操作
• Presto at Netflix
– インタラクティブ用途、90%のクエリが1分未満
– Amazon EMRで構築、動的なサイジングも
• Spark at Netflix
– 機械学習バッチ、YARNでマルチテナント、Dynamic Allocation
– Amazon EMRのYARNに、任意のバージョンのSparkで実行