23. 23
Amazon EMRでのジョブ実行方法
クラスタの外から
• Stepで実行
– Amazon EMRの仕組みの上で実行
• マネージメントコンソールやCLI
• AWS SDK
• IAM
– 成功/失敗等を簡単に管理できる
– 現状はシリアル実行のみ
• AWSサービスから実行
– Lambda
– Data Pipeline
• 各種スケジューラから実行
Amazon EMR
Amazon EMR
Step API
AWS Data Pipeline
Airflow, Luigi, or other
schedulers on EC2
AWS Lambda
24. 24
Amazon EMRでのジョブ実行方法
クラスタ上から実行
• 各アプリケーション毎のインタフェースで実行
– Master Nodeにsshして、コマンド実行
– HiveServer2, spark-submit等でジョブを実行
– Zeppelin, Hue, spark-jobserver等でGUIからジョブを実行
– Oozie等で一連のワークフローとしてジョブを実行
Web UIs: Hue SQL editor, Zeppelin
notebooks,
R Studio, and more!
Connect with ODBC / JDBC using
HiveServer2/Spark Thriftserver
Use Spark Actions in your Apache Oozie
workflow to create DAGs of jobs.
(start using
start-thriftserver.sh)
Or, use the native APIs and CLIs for
each application