Hadoop-分布式数据平台

Hadoop 第⼀一讲 @
瑞友科技IT应用研究院池建强

Weibo: @池建强
Twitter: @sagacity

大数据胜于好算法

‣ 如果数据足够多，可能产生出意想之外的应用
‣ 无论算法好坏，更多的数据总能带了来更好的推荐效果

大数据存储和分析遇到的问题

‣ 磁盘容量的增长远远大于磁盘读取速度
‣ 1TB的磁盘，数据传输速度100MB/s，读⼀一遍2.5H
‣ 写数据就更慢了...

解决之道

‣ 磁盘数据并行读写
‣ 分布式文件系统，冗余
‣ MapReduce

2004年，Google发表论文，向全世界介绍了MapReduce
2005年初，为了支持Nutch搜索引擎项目，Nutch的开发者基于Google发布的MapReduce
报告，在Nutch上开发了⼀一个可工作的MapReduce应用
2005年中，所有主要的Nutch算法被移植到MapReduce和NDFS(Nutch Distributed File
System )环境来运行
2006年2月，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展
2007年，百度开始使用Hadoop做离线处理，目前差不多80%的Hadoop集群用作日志处理
2008年，淘宝开始投入研究基于Hadoop的系统--云梯，并将其用于处理电子商务相关数
据。云梯1的总容量大概为9.3PB，包含了1100台机器，每天处理约18000道作业，扫描
500TB数据
2008年1月，Hadoop成为Apache顶级项目
2008年7月，Hadoop打破1TB数据排序基准测试记录。Yahoo的⼀一个Hadoop集群用209
秒完成1TB数据的排序，比上⼀一年的纪录保持者保持的297秒快了将近90秒
项目演化...

Hadoop提供了⼀一个可靠的共享存储和分析系统。HDFS
实现存储，MapReduce实现分析处理

Google App Engine——Runtime，OpenAPI

MapReduce BigTable
Chubby
GFS

Hadoop

MapReduce HBase/Hive Pig
ZooKeeper
HDFS

Google App Engine——Runtime，OpenAPI

MapReduce BigTable
Chubby
GFS

传统关系型数据库 MapReduce
数据大小 GB PB
访问交互式和批处理批处理
更新多次读写⼀一次写入多次读取
结构静态模式动态模式
完整性高低
横向扩展非线性线性

Hadoop生态圈
分布式文件系统和通用I/O的组件与接口（序列化，Java RPC和持久化数
Common
据结构）
Avro 支持高效的跨语言RPC和持久数据存储的序列化系统
MapReduce 分布式数据处理模型和执行环境，运行在大型商用机集群
HDFS 分布式文件系统，用于大型商用机集群
数据流语言和运行环境，检索大型数据集，Pig运行在MapReduce和HDFS
PIG
的集群上
分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据，并提供基
Hive
于SQL的查询语言（由运行时引擎翻译成MapReduce作业）
分布式、按列存储的数据库。HBase使用HDFS作为底层存储，同时支持
HBase
MapReduce的批量式计算和点查询（随机读取）
ZooKeeper 分布式、可用性高的协调服务。提供类似分布式锁的基础服务
Sqoop 在数据库和HDFS之间高效传输数据的工具

Hadoop支持多种语言，包括Java／C／Python／Ruby

MapReduce对数据采用的是运行时解释的方式，所以对
非结构化和半结构化数据非常有效
MapReduce输入的键和值并不是数据固有的属性，而是
有分析数据的人员来选择的

0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999

Mapper
public class MaxTemperatureMapper extends MapReduceBase
implements Mapper<LongWritable, Text, Text, IntWritable> {

private static final int MISSING = 9999;
//key:行偏移量; value:行文本
public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {

String line = value.toString();
String year = line.substring(15, 19);
......
if (airTemperature != MISSING && quality.matches("[01459]")) {
output.collect(new Text(year), new
IntWritable(airTemperature));
}
}
}

Reducer
public class MaxTemperatureReducer extends MapReduceBase
implements Reducer<Text, IntWritable, Text, IntWritable> {

public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {

int maxValue = Integer.MIN_VALUE;
while (values.hasNext()) {
maxValue = Math.max(maxValue, values.next().get());
}
output.collect(key, new IntWritable(maxValue));
}
}

Combiner
map1: (1950, 0) map2: (1950, 30)
(1950, 20) (1950, 20)
(1950, 10)

combine: (1950, [20,30])

conf.setMapperClass(MaxTemperatureMapper.class);
//指定合并函数
conf.setCombinerClass(MaxTemperatureReducer.class);
conf.setReducerClass(MaxTemperatureReducer.class);

HDFS是Hadoop的首选分布式文件系统，同时Hadoop
也可以支持其他文件系统，例如本地文件和其他分布式
系统。

超大文件—>1024G—>1T—>1024T—>1P
HDSF是为大数据吞吐设计的，这可能会以时间延迟为代价
HDFS的block默认为64M，Map任务通常⼀一次处理⼀一个块
的任务

nodename存储文件的元数据，nodename是放在内存中的，
所以文件存储的节点受限于namenode的内存大小。
显示分布式系统的数据块结构：hadoop fsck / -ﬁles -blocks

本地模式
‣ JDK1.6
‣ 无需运行守候进程
‣ 默认配置文件无须修改
‣ 在etc/hadoop/hadoop-env.sh设置JAVA_HOME
‣ 执行：bin/hadoop version

Hadoop控制脚本依赖SSH来执行
伪分布模式对整个集群的操作。

为了支持无缝工作，SSH安装好
‣ 需要运行守候进程－sbin/startall.sh 后需要允许运行hadoop的用户无
需键入密码登录到集群内的机

‣ 修改配置文件器。

创建公钥和私钥对，在集群间
‣ 配置SSH 共享密钥对。

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

‣ 格式化HDFS文件系统
‣ 查看分布式文件：hadoop -fs ls .
‣ NameNode - http://localhost:50070/
‣ JobTracker - http://localhost:50030/

全分布模式
‣ 在至少两台机器安装hadoop
10.211.55.2－os x
10.211.55.7－linux

‣ 配置SSH：
cd ~/.ssh
scp authorized_keys 10.211.55.7:/home/chjq/.ssh

‣ 修改配置文件，增加Slave节点
‣ 格式化全分布式HDFS文件系统
‣ 查看分布式文件：hadoop -fs ls .
‣ NameNode - http://10.211.55.2:50070/
‣ JobTracker - http://10.211.55.2:50030/

如何运行第二章中Java的MaxTemperature例子？
1、首先把所需数据提交到HDFS中。
cd hadoop-book
hadoop fs -put input input

2、建立java项目，把相关例程中的java代码导入项目
包括：
MaxTemperature.java
MaxTemperatureMapper.java
MaxTemperatureReducer.java
MaxTemperatureWithCombiner.java
NewMaxTemperature.java

引入jar包：hadoop-core-1.0.0.jar
编译通过，把源代码导出jar包，MaxTemperature.jar

3、执行命令运行map/reduce任务
以jar包的形式执行任务：
hadoop jar MaxTemperature.jar MaxTemperature input/ncdc/sample.txt
output
MaxTemperature是入口程序
input/ncdc/sample.txt是HDFS上的数据文件
可以采用目录方式处理多个数据，例如：
hadoop jar MaxTemperature.jarMaxTemperature input/ncdc/*.txt output
hadoop jar MaxTemperature.jarMaxTemperature input/ncdc/* output
hadoop会自动遍历目录下的所有文件

output是存放输出结果目录

4、查看执行结果
输出数据写入output目录，其中每个reducer都有⼀一个
输出文件，在这个例子中，包含⼀一个reducer，所以只能
找到⼀一个文件，part-00000

hadoop fs -cat output/part-00000

欲知后事如何
且听下回分解

Questions?

Follow me
微博：@池建强 | twitter: @sagacity

Hadoop-分布式数据平台

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (9)

Similaire à Hadoop-分布式数据平台

Similaire à Hadoop-分布式数据平台 (20)

Hadoop-分布式数据平台