SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
How We Prepared
Etu Hadoop Competition
2014
Study Hsueh!
!
2014/06/26
那⼀一年,我們⼀一起追的Hadoop
那⼀一年,我們怎麼僥倖贏的EHC
Background
• qrtt1
• Java & AWS Expert
• Study
• Java Fan
• Lu
• Machining Learning Beauty
Hadoop Experience
• qrtt1
• 從Hadoop 1.x就說要玩Hadoop,但⼀一直沒玩
• Study
• 裝過CDH、略懂Hadoop 1.x
• 介接過Hive、⽤用sqoop轉置過RDBMS資料
• Lu
• 聽⼈人家說過Hadoop
初賽
初賽前分⼯工
• qrtt1
• ⼿手⼯工架Hadoop環境
• Study
• 準備bigtop rpms (放在S3上⾯面)
• 改Vagrantfile
• 測試
• Lu
• 專⼼心學Linux與架Hadoop
初賽當天分⼯工
• qrtt1
• 分析送分程式
• Study
• 跑Vagrant script
!
初賽結果
• 漏掉設定hostname, 導致HBase異常,還好最後
有進決賽:)
!
!
!
決賽
決賽說明會前分⼯工
• qrtt1!
• ⼿手⼯工架Hadoop Cluster!
• 架設KDC!
• HA、Kerberos Setup & Usage!
• Study!
• 準備與參賽環境相似的測試機!
• 準備CDH & CentOS repository mirror!
• 玩各種Hadoop distribution (CDH、HDP與BigTop)!
• Performance Turning & Testing!
• HA & Kerberos Usage!
• Lu!
• ⼿手⼯工架Hadoop Cluster!
• 測試Hadoop參數
測試機 v1
• Type 1 Hypervisor: VMware ESXi 5.5
• CPU: Intel i5 760
• RAM: 16 GB
• HDD: 2 TB * 2
決定使⽤用的
Hadoop Distribution
• 採⽤用CDH
• Pros
• 容易修改&部署Hadoop參數
• Log位置固定
• Cons
• Cloudera Management Service⾮非常吃資源 (可以關掉)
• 安裝耗時
決賽說明會後分⼯工
• qrtt1
• Performance Testing
• Study
• 調整測試機,盡可能貼近⽐比賽環境
• 準備⽐比賽當天⽤用的VM
• Performance Testing
• Lu
• 測試Hadoop參數
測試機 v2
• Host: CentOS 6.5 x86_64 Desktop
• Type 2 Hypervisor: Oracle VirtualBox 4.3.12
• CPU: Intel i5 760
• RAM: 32 GB
• HDD: 2 TB * 4
決賽前⼀一天...
• 準備得越多,越發現可以準備的東⻄西更多
• 累了
!
!
決賽當天分⼯工
• qrtt1
• KDC Setup
• Watch Log
• 執⾏行送分程式
• Study
• 準備軟硬體環境
• 協助問題排除
• Lu
• Hadoop參數調整
Before The Final Game
We Know
• 單⼀一台⼤大VM⽐比四台⼩小VM快上數倍
• CDH預設不允許使⽤用系統使⽤用者hdfs做某些操作
• VirtualBox
• JBOD無顯著效果
• ⽐比ESXi VM慢很多,且不時無回應
• Shared Folder權限更改無效
• VM互傳資料速度約30MB/s
策略
• 先求各項有分數
• 若有⼈人分數超前,才開始turning
• VM turning
• Hadoop parameter turning
• ramfs
• Make Hadoop cluster run like a single-node Hadoop
• JBOD
決賽中遇到的問題
• VM異常的慢
• HDFS寫⼊入30 * 3G的資料,準備的VM硬碟配置只
有80 GB
• HA Failover只等10秒,Namenode來不及切換
• HBase使⽤用系統使⽤用者hdfs執⾏行,導致出現權限
錯誤
Troubleshooting
• VM異常的慢
• 原因:每個VM配置了過多的cores (12 cores)
• 解決⽅方法:每個VM改為4 cores
!
!
Troubleshooting
• HDFS寫⼊入30 * 3G的資料,我們準備的VM硬碟配置只有80 GB
• Mount new virtual disks
• Stop Kerberos
• Reformat HDFS
• Start Kerberos
• 最後把HBase弄掛了
• 使⽤用snapshot還原VM
Troubleshooting
• HA Failover送分程式只等10秒,Namenode來不
及切換
• ⽤用Ctrl+z暫停送分程式
• 確認 Failover 完成,⽤用 fg 將送分程式喚醒
!
Troubleshooting
• HBase使⽤用系統使⽤用者hdfs執⾏行,導致出現權限錯
誤
• 新增Kerberos user
• 賦予User執⾏行MapReduce、HBase與HDFS的
權限
!
結論
• ⽐比賽中有很多取捨,最後很多準備的東⻄西都沒⽤用
上
• ⺩王牌還沒出,⽐比賽就結束了
• 也許我們只是⼩小贏在 Linux ⽐比較熟
!
⾨門外漢只要努⼒力,也有變成
男⼦子漢的⼀一天!!
參考資料
• Etu Hadoop Competition 2014
• http://ehc.etusolution.com/index.php/tw/
• ⾨門外漢的 Hadoop 部署⼤大賽(上)
• http://www.codedata.com.tw/social-coding/contest-of-
hadoop-layman-1/
• ⾨門外漢的 Hadoop 部署⼤大賽(下)
• http://www.codedata.com.tw/social-coding/contest-of-
hadoop-layman-2/

Contenu connexe

Tendances

The practice of enjoying apache
The practice of enjoying apacheThe practice of enjoying apache
The practice of enjoying apachejixuan1989
 
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Yang Guanjun
 
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao ZhangBuilding the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao ZhangCeph Community
 
分布式存储的元数据设计
分布式存储的元数据设计分布式存储的元数据设计
分布式存储的元数据设计LI Daobing
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践drewz lin
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoMin Zhou
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 

Tendances (9)

Hadoop hive
Hadoop hiveHadoop hive
Hadoop hive
 
The practice of enjoying apache
The practice of enjoying apacheThe practice of enjoying apache
The practice of enjoying apache
 
Cephfs架构解读和测试分析
Cephfs架构解读和测试分析Cephfs架构解读和测试分析
Cephfs架构解读和测试分析
 
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao ZhangBuilding the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
Building the Production Ready EB level Storage Product from Ceph - Dongmao Zhang
 
分布式存储的元数据设计
分布式存储的元数据设计分布式存储的元数据设计
分布式存储的元数据设计
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
 
Distributed Data Analytics at Taobao
Distributed Data Analytics at TaobaoDistributed Data Analytics at Taobao
Distributed Data Analytics at Taobao
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
SMACK Dev Experience
SMACK Dev ExperienceSMACK Dev Experience
SMACK Dev Experience
 

Similaire à How We Prepared Etu Hadoop Competition 2014

Hadoop introduction
Hadoop introductionHadoop introduction
Hadoop introductionTianwei Liu
 
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界Xu Wang
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft UsersKuo-Chun Su
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境Phate334
 
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLCDRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLCYu-Chin Tsai
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術Wei-Yu Chen
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data邦宇 叶
 
頑皮工坊 GCP 大冒險
頑皮工坊 GCP 大冒險頑皮工坊 GCP 大冒險
頑皮工坊 GCP 大冒險onlinemad
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Hue使用及规范
Hue使用及规范Hue使用及规范
Hue使用及规范edwardsbean
 
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術Yu Lung Shao
 
GDG Taichung - Firebase Introduction 01
GDG Taichung - Firebase Introduction 01GDG Taichung - Firebase Introduction 01
GDG Taichung - Firebase Introduction 01Duran Hsieh
 

Similaire à How We Prepared Etu Hadoop Competition 2014 (20)

Hadoop introduction
Hadoop introductionHadoop introduction
Hadoop introduction
 
Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界Hyper: 让Pod以VM为边界
Hyper: 让Pod以VM为边界
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft Users
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
 
DRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLCDRBL-live-hadoop at TSLC
DRBL-live-hadoop at TSLC
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
頑皮工坊 GCP 大冒險
頑皮工坊 GCP 大冒險頑皮工坊 GCP 大冒險
頑皮工坊 GCP 大冒險
 
大數據
大數據大數據
大數據
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Hue使用及规范
Hue使用及规范Hue使用及规范
Hue使用及规范
 
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
 
GDG Taichung - Firebase Introduction 01
GDG Taichung - Firebase Introduction 01GDG Taichung - Firebase Introduction 01
GDG Taichung - Firebase Introduction 01
 

How We Prepared Etu Hadoop Competition 2014