19. Cluster
基本架構
分散式計算簡介
Worker Node
Worker Node
Worker Node
Worker Node
Data
Data
Data
Executor
Executor
Executor
Client
Cluster
Manager
1. 叢集管理理節點安排
⼯工作節點
2. 暫存資料於記憶體
Scheduling
Logistic
Regressioon
19
Cache
Data
Cache
Data
Cache
Data
20. Cluster
基本架構
分散式計算簡介
Worker Node
Worker Node
Worker Node
Worker Node
Data
Data
Data
ExecutorTaskTask
ExecutorTaskTask
ExecutorTaskTask
Client
Cluster
Manager
1. ⼯工作節點執⾏行行指定
任務
2. 此階段可能發⽣生節
點間的資料交換
Scheduling
Logistic
Regressioon
20
Cache
Data
Cache
Data
Cache
Data
21. Cluster
基本架構
分散式計算簡介
Worker Node
Worker Node
Worker Node
Worker Node
ExecutorTaskTask
ExecutorTaskTask
ExecutorTaskTask
Client
Cluster
Manager
Data
Data
Data
ExecutorTask
Reduce
1. 結合各⼯工作節點的
計算結果
Logistic
Regressioon
21
Cache
Data
Cache
Data
Cache
Data
22. Cluster
基本架構
分散式計算簡介
Worker Node
Worker Node
Worker Node
Worker Node
ExecutorTaskTask
ExecutorTaskTask
ExecutorTaskTask
Client
Cluster
Manager
Data
Data
Data
ExecutorTask
1. 將最終計算結果回
傳給使⽤用者
2. 根據需求,判斷是
否進⾏行行下次迭代
Logistic
Regressioon
22
Cache
Data
Cache
Data
Cache
Data
23. 基本架構
RDD 物件:Resilient Distributed Dataset
23
⽤用⼾戶端
RDD 物件
1. Create
2. Tranformation
3. Action
4. Cache
Work Node
Cache
Data
Work Node
Cache
Data
Work Node
Cache
Data Data
Data
Data