Contenu connexe
Similaire à 薛伟:腾讯广点通——大数据之上的实时精准推荐 (20)
薛伟:腾讯广点通——大数据之上的实时精准推荐
- 6. 数据的基本特点
• 典型的大数据
– 大量(Volume): 腾讯QQ月活跃用户超过8亿,在线人际关系链超
1000亿;Qzone空间月活跃用户数超6亿
– 高速(Velocity): Qzone空间日均相册上传超过4亿,日写操作总数
过10亿
– 多样(Varity): 数据种类多(日志、视频、图片、LBS信息等),非
标准化数据比例高
– 价值(Value):价值密度低,商业价值高
- 7. 从推荐的视角看数据
交叉效应: 用户-物品, 用户-推荐位, 物品-推荐位,
用户-物品-推荐位的相似度
物品
自身属性:
素材特征、文本Tag
类别、价格、成交量
定向规则 、投放预算
生命周期等
派生属性:
归属的行业分类等
用户
推荐引擎
基础数据:年龄、地域、性别
内容: UGC内容:博客、微博内容等
行为:浏览 /收藏/ 喜欢/ 消费/分享等
场景:时间、地点
关系链:好友/朊友/微博关系链
推荐上下文
推荐上下文
属性:
推荐位:首页,IM,详情页…
对应页面内容,页面位置排序…
时间、地点、环境变量等…
- 14. 算法-谱系
• 用户实时行为
规则算法
– 关联,重定向
(重定向, 关联规则,热度,…)
• 老用户-老广告
– 经典模型效果好
基于内容的算法
协同过滤算法
(基于邻域,各种矩阵分解,…)
图算法
(最近邻,各类图挖掘,…)
分类算法
(LR,RDT,GBDT,NN,…)
• 老用户-新广告
混合算法
– 借助广告相关的标签,文
本,类目,以及提取的广
告特征等
• 新用户-老广告
– 借助用户分群,转移学习
等
• 新用户-新广告
– 寻找相关信息量
- 16. 算法示例 – Logistic Regression
• 算法模型
P
logit P= ln
[, ]
1 P
logit P f ( x1 , x2 , xk )
logit P=b0 b1 x1 b2 x2 bk xk
- 17. 算法示例 – Logistic Regression
• 特征构成
用户
+
用户基本属性,行为属性、
兴趣标签..
广告
Tag、图像特征、
类目、行业..
+
推荐位
位置特征信息...
• 模型训练
– Spark上的分布式幵行的高维LR算法
– 支持高维特征+大训练数据集
– 15分钟增量更新线上模型
+
其他
= 是否点击
上下文
LBS,时间,
节假日,天气...
1,0