Contenu connexe
Similaire à 淘宝Hadoop数据分析实践 (20)
淘宝Hadoop数据分析实践
- 5. 目前架构 天网调度系统 Oracle 备库 爬虫数据 MySQL备库 日志系统 TimeTunnel DataExchange DataSync Gateway Servers Hadoop Cluster:云梯1 Map Reduce Java Jobs Streaming Jobs Hive Jobs 数据平台 搜索 支付宝 B2B 云梯2 口碑 广告 BI 数据魔方 量子统计 淘数据 推荐系统 搜索排行 …
- 12. 存储优化 极限存储 采用增量存储表数据 建立聚簇索引定位某天/某段时间内的快照 压缩核心表在云梯的存储空间, 平均比率1/30 已经节省3PB空间 压缩 历史数据采用BZip2压缩 已经开发LZMA2压缩, 等待上线 Hadoop RAID 源于Facebook的版本, 添加Placement Mover 正在上线, 预计可再节省3PB空间