[2024]Digital Global Overview Report 2024 Meltwater.pdf
Hw09 Hadoop Based Data Mining Platform For The Telecom Industry
1. Parallel Data Mining Platform in Telecom Industry -- Big Cloud based Parallel Data Mining Platform Friday, Oct 2, 2009 NYC Research Institute of China Mobile Communication Corporation Feng Cao
14. 关键技术方案 - 并行关联规则算法 -PApriori 功能 Apriori 是基于统计频繁项集的策略发现属性间的关联关系 指标 1 )实现查找频繁 k 项集的并行化 2 )正确性与串行结果完全一致 3 )扩展性优良, TB 级处理时间千秒级 参考方案 串行 Apriori 算法 我们的方案 1 )采用 Map/Reduce 机制逐层迭代方法来发现频繁项集,在查找每个频繁 k 项集时进行并行化; 2 )将数据转换为中间 Key/Value 对输出: key 为候选 k 项集, value 为项集计数;将各处理节点输出的数据进行合并处理,满足最小支持度阈值的作为频繁 k 项集; 3 )由频集产生强关联规则,输出满足最小可信度阈值的关联规则。
15.
16.
17.
18.
19.
20. Collaborations are welcome! Thanks and Questions? fengcao@chinamobile.comluozhiguo@chinamobile.com [email_address] Cloud Computing E-Channel (in Chinese) http://labs.chinamobile.com/cloud