Soumettre la recherche
Mettre en ligne
Hadoop compress-stream
•
1 j'aime
•
660 vues
Schubert Zhang
Suivre
for old version of hadoop (0.
Lire moins
Lire la suite
Signaler
Partager
Signaler
Partager
1 sur 2
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Netdrive
Netdrive
YingYuan Chiu
Linux 教育訓練
Linux 教育訓練
Bo-Yi Wu
MongoDB入门与实践
MongoDB入门与实践
mysqlops
Linux学习
Linux学习
tonyhuang2008
Lx4 coffee mercurial-usage
Lx4 coffee mercurial-usage
Zoom Quiet
FtnApp 的缩略图实践
FtnApp 的缩略图实践
Frank Xu
云计算环境中Ssd在cassandra测试的性能表现
云计算环境中Ssd在cassandra测试的性能表现
july19850903
Redis介绍
Redis介绍
yubao fu
Recommandé
Netdrive
Netdrive
YingYuan Chiu
Linux 教育訓練
Linux 教育訓練
Bo-Yi Wu
MongoDB入门与实践
MongoDB入门与实践
mysqlops
Linux学习
Linux学习
tonyhuang2008
Lx4 coffee mercurial-usage
Lx4 coffee mercurial-usage
Zoom Quiet
FtnApp 的缩略图实践
FtnApp 的缩略图实践
Frank Xu
云计算环境中Ssd在cassandra测试的性能表现
云计算环境中Ssd在cassandra测试的性能表现
july19850903
Redis介绍
Redis介绍
yubao fu
Cassandra运维之道(office2003)
Cassandra运维之道(office2003)
haiyuan ning
網域名稱系統
網域名稱系統
祐豪 余
Os讀書會20170415
Os讀書會20170415
Jen-Wei Cheng
分布式系统中的 RPC 与串行化
分布式系统中的 RPC 与串行化
freeplant
Linux常用命令
Linux常用命令
Tony Deng
linux mm
linux mm
Waylin Ch
Google key technologies
Google key technologies
Stefanie Zhao
使用dd命令快速复制LV
使用dd命令快速复制LV
Neil Wang (汪炜荣)
Tcpcopy benchmark
Tcpcopy benchmark
Louis liu
Dropbox講義
Dropbox講義
Andy Juang
Mac os Terminal 常用指令與小技巧
Mac os Terminal 常用指令與小技巧
Chen Liwei
深入Docker的资源管理
深入Docker的资源管理
SpeedyCloud
程式設計師的自我修養 Chapter 8
程式設計師的自我修養 Chapter 8
Shu-Yu Fu
Ftn存储设计
Ftn存储设计
gzterrytan
如何解Zip壓縮檔(以Win Rar為例)
如何解Zip壓縮檔(以Win Rar為例)
p_yang
探索 Everything 背后的技术
探索 Everything 背后的技术
yiwenshengmei
Make talk-cn
Make talk-cn
CapnKernel
Linux基础
Linux基础
Eric Lo
常用Mac/Linux命令分享
常用Mac/Linux命令分享
Yihua Huang
Fans of running gump
Fans of running gump
Schubert Zhang
Wild Thinking of BigdataBase
Wild Thinking of BigdataBase
Schubert Zhang
Big Data Engineering Team Meeting 20120223a
Big Data Engineering Team Meeting 20120223a
Schubert Zhang
Contenu connexe
Tendances
Cassandra运维之道(office2003)
Cassandra运维之道(office2003)
haiyuan ning
網域名稱系統
網域名稱系統
祐豪 余
Os讀書會20170415
Os讀書會20170415
Jen-Wei Cheng
分布式系统中的 RPC 与串行化
分布式系统中的 RPC 与串行化
freeplant
Linux常用命令
Linux常用命令
Tony Deng
linux mm
linux mm
Waylin Ch
Google key technologies
Google key technologies
Stefanie Zhao
使用dd命令快速复制LV
使用dd命令快速复制LV
Neil Wang (汪炜荣)
Tcpcopy benchmark
Tcpcopy benchmark
Louis liu
Dropbox講義
Dropbox講義
Andy Juang
Mac os Terminal 常用指令與小技巧
Mac os Terminal 常用指令與小技巧
Chen Liwei
深入Docker的资源管理
深入Docker的资源管理
SpeedyCloud
程式設計師的自我修養 Chapter 8
程式設計師的自我修養 Chapter 8
Shu-Yu Fu
Ftn存储设计
Ftn存储设计
gzterrytan
如何解Zip壓縮檔(以Win Rar為例)
如何解Zip壓縮檔(以Win Rar為例)
p_yang
探索 Everything 背后的技术
探索 Everything 背后的技术
yiwenshengmei
Make talk-cn
Make talk-cn
CapnKernel
Linux基础
Linux基础
Eric Lo
常用Mac/Linux命令分享
常用Mac/Linux命令分享
Yihua Huang
Tendances
(19)
Cassandra运维之道(office2003)
Cassandra运维之道(office2003)
網域名稱系統
網域名稱系統
Os讀書會20170415
Os讀書會20170415
分布式系统中的 RPC 与串行化
分布式系统中的 RPC 与串行化
Linux常用命令
Linux常用命令
linux mm
linux mm
Google key technologies
Google key technologies
使用dd命令快速复制LV
使用dd命令快速复制LV
Tcpcopy benchmark
Tcpcopy benchmark
Dropbox講義
Dropbox講義
Mac os Terminal 常用指令與小技巧
Mac os Terminal 常用指令與小技巧
深入Docker的资源管理
深入Docker的资源管理
程式設計師的自我修養 Chapter 8
程式設計師的自我修養 Chapter 8
Ftn存储设计
Ftn存储设计
如何解Zip壓縮檔(以Win Rar為例)
如何解Zip壓縮檔(以Win Rar為例)
探索 Everything 背后的技术
探索 Everything 背后的技术
Make talk-cn
Make talk-cn
Linux基础
Linux基础
常用Mac/Linux命令分享
常用Mac/Linux命令分享
En vedette
Fans of running gump
Fans of running gump
Schubert Zhang
Wild Thinking of BigdataBase
Wild Thinking of BigdataBase
Schubert Zhang
Big Data Engineering Team Meeting 20120223a
Big Data Engineering Team Meeting 20120223a
Schubert Zhang
Bigtable数据模型解决CDR清单存储问题的资源估算
Bigtable数据模型解决CDR清单存储问题的资源估算
Schubert Zhang
RockStor - A Cloud Object System based on Hadoop
RockStor - A Cloud Object System based on Hadoop
Schubert Zhang
Horizon for Big Data
Horizon for Big Data
Schubert Zhang
Scrum Agile Development
Scrum Agile Development
Schubert Zhang
Career Advice
Career Advice
Schubert Zhang
HBase Coprocessor Introduction
HBase Coprocessor Introduction
Schubert Zhang
DaStor/Cassandra report for CDR solution
DaStor/Cassandra report for CDR solution
Schubert Zhang
Hadoop大数据实践经验
Hadoop大数据实践经验
Schubert Zhang
HiveServer2
HiveServer2
Schubert Zhang
Introduction To HBase
Introduction To HBase
Anil Gupta
HBase Vs Cassandra Vs MongoDB - Choosing the right NoSQL database
HBase Vs Cassandra Vs MongoDB - Choosing the right NoSQL database
Edureka!
Engineering practices in big data storage and processing
Engineering practices in big data storage and processing
Schubert Zhang
En vedette
(15)
Fans of running gump
Fans of running gump
Wild Thinking of BigdataBase
Wild Thinking of BigdataBase
Big Data Engineering Team Meeting 20120223a
Big Data Engineering Team Meeting 20120223a
Bigtable数据模型解决CDR清单存储问题的资源估算
Bigtable数据模型解决CDR清单存储问题的资源估算
RockStor - A Cloud Object System based on Hadoop
RockStor - A Cloud Object System based on Hadoop
Horizon for Big Data
Horizon for Big Data
Scrum Agile Development
Scrum Agile Development
Career Advice
Career Advice
HBase Coprocessor Introduction
HBase Coprocessor Introduction
DaStor/Cassandra report for CDR solution
DaStor/Cassandra report for CDR solution
Hadoop大数据实践经验
Hadoop大数据实践经验
HiveServer2
HiveServer2
Introduction To HBase
Introduction To HBase
HBase Vs Cassandra Vs MongoDB - Choosing the right NoSQL database
HBase Vs Cassandra Vs MongoDB - Choosing the right NoSQL database
Engineering practices in big data storage and processing
Engineering practices in big data storage and processing
Plus de Schubert Zhang
Blockchain in Action
Blockchain in Action
Schubert Zhang
科普区块链
科普区块链
Schubert Zhang
Engineering Culture and Infrastructure
Engineering Culture and Infrastructure
Schubert Zhang
Simple practices in performance monitoring and evaluation
Simple practices in performance monitoring and evaluation
Schubert Zhang
Ganglia轻度使用指南
Ganglia轻度使用指南
Schubert Zhang
Big data and cloud
Big data and cloud
Schubert Zhang
Learning from google megastore (Part-1)
Learning from google megastore (Part-1)
Schubert Zhang
Hanborq optimizations on hadoop map reduce 20120221a
Hanborq optimizations on hadoop map reduce 20120221a
Schubert Zhang
Cassandra Compression and Performance Evaluation
Cassandra Compression and Performance Evaluation
Schubert Zhang
The World of Structured Storage System
The World of Structured Storage System
Schubert Zhang
Distributed Filesystems Review
Distributed Filesystems Review
Schubert Zhang
Red Hat Global File System (GFS)
Red Hat Global File System (GFS)
Schubert Zhang
pNFS Introduction
pNFS Introduction
Schubert Zhang
无线信息传媒的技术分析和商业模式
无线信息传媒的技术分析和商业模式
Schubert Zhang
Case Study - How Rackspace Query Terabytes Of Data
Case Study - How Rackspace Query Terabytes Of Data
Schubert Zhang
HFile: A Block-Indexed File Format to Store Sorted Key-Value Pairs
HFile: A Block-Indexed File Format to Store Sorted Key-Value Pairs
Schubert Zhang
HBase 0.20.0 Performance Evaluation
HBase 0.20.0 Performance Evaluation
Schubert Zhang
Plus de Schubert Zhang
(17)
Blockchain in Action
Blockchain in Action
科普区块链
科普区块链
Engineering Culture and Infrastructure
Engineering Culture and Infrastructure
Simple practices in performance monitoring and evaluation
Simple practices in performance monitoring and evaluation
Ganglia轻度使用指南
Ganglia轻度使用指南
Big data and cloud
Big data and cloud
Learning from google megastore (Part-1)
Learning from google megastore (Part-1)
Hanborq optimizations on hadoop map reduce 20120221a
Hanborq optimizations on hadoop map reduce 20120221a
Cassandra Compression and Performance Evaluation
Cassandra Compression and Performance Evaluation
The World of Structured Storage System
The World of Structured Storage System
Distributed Filesystems Review
Distributed Filesystems Review
Red Hat Global File System (GFS)
Red Hat Global File System (GFS)
pNFS Introduction
pNFS Introduction
无线信息传媒的技术分析和商业模式
无线信息传媒的技术分析和商业模式
Case Study - How Rackspace Query Terabytes Of Data
Case Study - How Rackspace Query Terabytes Of Data
HFile: A Block-Indexed File Format to Store Sorted Key-Value Pairs
HFile: A Block-Indexed File Format to Store Sorted Key-Value Pairs
HBase 0.20.0 Performance Evaluation
HBase 0.20.0 Performance Evaluation
Hadoop compress-stream
1.
读一块数据的基本流程
一个解压流的对象关系 (以LZO为例) readBlock (压缩块在文件中的偏移量, 硬盘上的压缩块大小, BufferedInputStream FilterInputStream 解压后数据的大小[一般在块压缩文件中会 (缓存Buffer是1KB) 记住这个大小]) 包含底层流 compressAlgo.getDecompressor() 根据用户选择的压缩算法获得一个 BlockDecompressorStream Decomprssor[可能是从CodecPool中得到或 (解压buffer为64KB, DecompressorStream CompressionInputStream new出来] 对应一个Decompressor) 包含底层流 根据前面设置的文件中的块 new BoundedRangeFileInputStream BoundedRangeFileInputStream 用来读取文件中的其中一块压缩数据 (对应底层流中的一段数据 start-end) 可在同一个底层流上有多个,close 时不会close底层流 compressAlgo. 包含底层流 createDecompressionStream() 获得解压流 FSDataInputStream DataInputStream (对应到HDFS上的文件) Seekable, PositionedReadable 在这个流上读数据 读到的数据就是解压过的 关闭该解压流
2.
写一块数据的基本流程
一个压缩流的对象关系 (以LZO为例) Start writeBlock DataOutputStream FilterInputStream (最上层,为了能写各种类型的数据) DataOutput 包含底层流 compressAlgo.getCompressor() 根据用户选择的压缩算法获得一个 Comprssor[可能是从CodecPool中得到或new BufferedOutputStream 出来] (写缓存Buffer 4KB) FilterOutputStream 包含底层流 compressAlgo. createCompressionStream() 获得压缩流 FinishOnFlushCompressionStream 在flush的时候先调用底层压缩流的 FilterOutputStream finish,然后flush,并reset底层流 的resetStarte 包含底层流 new DataOutputStream 用于写的直接接口 BlockCompressorStream CompressorStream CompressionOutputStream 压缩buffer 64KB 写各种各样的数据到这个流 包含底层流 在一个块写完的时候flush该流,但不必 close。因为close就会将底层的流都close FSDataOutputStream DataOutputStream 掉,也就close了底层文件,我们必须在写 底层的文件流 Syncable 完所有的block后再单独close底层文件流
Télécharger maintenant