SlideShare a Scribd company logo
1 of 11
Download to read offline
1st TechParty@UIC
                                zhique




Hadoop Intro
HDFS & MapReduce
Background
1. Lucene和Nutch
  Lucene: 纯Java的高性能全文索引引擎工具包。
  Nutch:以Lucene为基础实现的搜索引擎应用。


2. Google, GFS和MapReduce论文
  Hadoop,从Nutch中剥离出来的分布式计算模块。
Application
1.   阿里巴巴:垂直商业搜索引擎
2.   百度:日志分析、网页数据库
3.   Facebook:日志存储、分析
4.   Twitter:Tweet、用户数据存储分析

      快、简单、横向扩招、不用钱!
HDFS - Hadoop分布式文件系统

设计
 1. 一次写入,多次读取
 2. 文件系统块大小默认为64MB
 3. 管理者-工作者模式
     namenode和datanode
 4. 类*nix的文件操作命令
     hadoop fs -mkdir books

               有何缺陷?
HDFS的读写模式
HDFS的读写模式
避免带宽瓶颈的机制




    代码往数据迁移
MapReduce算法及计算框架
Hadoop生态圈

1. Pig
    一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在
MapReduce和HDFS的集群上。
2. Hive
   一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基
于 SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。
3. HBase
    一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持
MapReduce的批量式计算和点查询(随机读取)。
4. ZooKeeper
  一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务
用于构建分布式应用。
References
Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press
TechParty@UIC
Thank you!

More Related Content

What's hot

王鹏云:实时搜索架构分析
王鹏云:实时搜索架构分析王鹏云:实时搜索架构分析
王鹏云:实时搜索架构分析Leechael
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big dataYuHsuan Chen
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践isnull
 
大資料分析技術的濫觴 0727
大資料分析技術的濫觴 0727大資料分析技術的濫觴 0727
大資料分析技術的濫觴 0727家雋 莊
 
Hdfs原理及实现
Hdfs原理及实现Hdfs原理及实现
Hdfs原理及实现baggioss
 

What's hot (8)

王鹏云:实时搜索架构分析
王鹏云:实时搜索架构分析王鹏云:实时搜索架构分析
王鹏云:实时搜索架构分析
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
 
大資料分析技術的濫觴 0727
大資料分析技術的濫觴 0727大資料分析技術的濫觴 0727
大資料分析技術的濫觴 0727
 
Hadoop hive
Hadoop hiveHadoop hive
Hadoop hive
 
Hdfs原理及实现
Hdfs原理及实现Hdfs原理及实现
Hdfs原理及实现
 

Viewers also liked

Azkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation EngineAzkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation EnginePraveen Thirukonda
 
Azkaban and Pig at LinkedIn
Azkaban and Pig at LinkedInAzkaban and Pig at LinkedIn
Azkaban and Pig at LinkedInRussell Jurney
 
Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...
Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...
Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...David Chen
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkabanhdhappy001
 
Workflow Engines for Hadoop
Workflow Engines for HadoopWorkflow Engines for Hadoop
Workflow Engines for HadoopJoe Crobak
 
Business 100 Powerpoint
Business 100 PowerpointBusiness 100 Powerpoint
Business 100 PowerpointKrhodes5
 
Rogelio Castaneda
Rogelio CastanedaRogelio Castaneda
Rogelio Castanedarogeliocm00
 
Artjounal 150120130542-conversion-gate01
Artjounal 150120130542-conversion-gate01Artjounal 150120130542-conversion-gate01
Artjounal 150120130542-conversion-gate01Persephone Inframudo
 
Borthakur hadoop univ-research
Borthakur hadoop univ-researchBorthakur hadoop univ-research
Borthakur hadoop univ-researchsaintdevil163
 

Viewers also liked (20)

Azkaban
AzkabanAzkaban
Azkaban
 
Azkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation EngineAzkaban - WorkFlow Scheduler/Automation Engine
Azkaban - WorkFlow Scheduler/Automation Engine
 
Azkaban and Pig at LinkedIn
Azkaban and Pig at LinkedInAzkaban and Pig at LinkedIn
Azkaban and Pig at LinkedIn
 
Lspe
LspeLspe
Lspe
 
Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...
Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...
Hadoop Summit 2014: Building a Self-Service Hadoop Platform at LinkedIn with ...
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
 
Workflow Engines for Hadoop
Workflow Engines for HadoopWorkflow Engines for Hadoop
Workflow Engines for Hadoop
 
провери колико си научио!
провери колико си научио!провери колико си научио!
провери колико си научио!
 
Углови
Углови Углови
Углови
 
OD summer school_scenario_Sladjana Trajkovic
OD summer school_scenario_Sladjana TrajkovicOD summer school_scenario_Sladjana Trajkovic
OD summer school_scenario_Sladjana Trajkovic
 
Business 100 Powerpoint
Business 100 PowerpointBusiness 100 Powerpoint
Business 100 Powerpoint
 
Rogelio Castaneda
Rogelio CastanedaRogelio Castaneda
Rogelio Castaneda
 
упоређивање децималних бројева
упоређивање децималних бројеваупоређивање децималних бројева
упоређивање децималних бројева
 
Л о п т а
 Л о п т а Л о п т а
Л о п т а
 
Углови на трансверзали
Углови на трансверзалиУглови на трансверзали
Углови на трансверзали
 
Artjounal 150120130542-conversion-gate01
Artjounal 150120130542-conversion-gate01Artjounal 150120130542-conversion-gate01
Artjounal 150120130542-conversion-gate01
 
2015 t1 ujian penilaian 1
2015 t1 ujian penilaian 12015 t1 ujian penilaian 1
2015 t1 ujian penilaian 1
 
Углови на трансверзали (утврђивање)
Углови на трансверзали (утврђивање)Углови на трансверзали (утврђивање)
Углови на трансверзали (утврђивање)
 
Borthakur hadoop univ-research
Borthakur hadoop univ-researchBorthakur hadoop univ-research
Borthakur hadoop univ-research
 
Merenje uglova
Merenje uglovaMerenje uglova
Merenje uglova
 

Similar to Introduction to Hadoop

Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Awei Hsu
 
Hadoop作业调度研究V0.1
Hadoop作业调度研究V0.1Hadoop作业调度研究V0.1
Hadoop作业调度研究V0.1YongqiangHe
 
Hadoop系统架构
Hadoop系统架构Hadoop系统架构
Hadoop系统架构ssuser220dc6
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境Phate334
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introductionTechwiser
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Hadoop-分布式数据平台
Hadoop-分布式数据平台Hadoop-分布式数据平台
Hadoop-分布式数据平台Jacky Chi
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Wei-Yu Chen
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft UsersKuo-Chun Su
 
分布式索引构建
分布式索引构建分布式索引构建
分布式索引构建智杰 付
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DBEtu Solution
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadooptaishanla
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsTrendProgContest13
 

Similar to Introduction to Hadoop (20)

Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威Hadoop 簡介 教師 許智威
Hadoop 簡介 教師 許智威
 
Hadoop作业调度研究V0.1
Hadoop作业调度研究V0.1Hadoop作业调度研究V0.1
Hadoop作业调度研究V0.1
 
Hadoop系统架构
Hadoop系统架构Hadoop系统架构
Hadoop系统架构
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境架設Hadoop叢集以及mapreduce開發環境
架設Hadoop叢集以及mapreduce開發環境
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
Hadoop
HadoopHadoop
Hadoop
 
Bigdata introduction
Bigdata introductionBigdata introduction
Bigdata introduction
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Hadoop-分布式数据平台
Hadoop-分布式数据平台Hadoop-分布式数据平台
Hadoop-分布式数据平台
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來Hadoop 2.0 之古往今來
Hadoop 2.0 之古往今來
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft Users
 
分布式索引构建
分布式索引构建分布式索引构建
分布式索引构建
 
高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB高科技產業資料分析解決方案 Hare DB
高科技產業資料分析解決方案 Hare DB
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadoop
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
 

Introduction to Hadoop

  • 1. 1st TechParty@UIC zhique Hadoop Intro HDFS & MapReduce
  • 2. Background 1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。 2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
  • 3. Application 1. 阿里巴巴:垂直商业搜索引擎 2. 百度:日志分析、网页数据库 3. Facebook:日志存储、分析 4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
  • 4. HDFS - Hadoop分布式文件系统 设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式 namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
  • 7. 避免带宽瓶颈的机制 代码往数据迁移
  • 9. Hadoop生态圈 1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce和HDFS的集群上。 2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基 于 SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。 4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务 用于构建分布式应用。
  • 10. References Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press