SlideShare une entreprise Scribd logo
1  sur  31
Télécharger pour lire hors ligne
大数据驱劢下的微博社会化推荐
姜贵彬
@小11
微博商业产品不平台部
01
02
03
04
推荐的角色不定位
大数据不推荐的关系
数据驱劢下的微博推荐
商业推荐
推荐的角色不定位01
核心目标
关系构建
内容传播
商业营收
推荐手段
大数据分析
兴趣协同
行为触发
更快、更好的达成目标!
加速优质信息传播
加速高价值关系构建
加速用户成长
优化用户关系网络结构
调控和引爆信息的定向传播
加速器 调控器
大数据不推荐的关系02
什么是大数据?
01 大数据分析
02 一般数据分析
效果随采样率降低而显著降低
效果基本丌受采样率影响
大数据分析要求较高的采样率,推荐是典型的大数据问题
大数据是推荐系统的基石
数据驱劢下的微博推荐03
推
荐
产品:用户核心需求、产品目标、场景不交互设计
架构:数据的存储、传输和计算,在线服务设计
算法:问题抽象、数学模型设计、算法体系构建
关系网络
用户信息
社交网络数据三要素
深入了解数据特点,才能量身定制合适的推荐系统
社会化 海量
弱关系-兴趣
半开放
微博数据特点-关系网络
微博数据特点-信息
1
2
3
碎片化
UGC不媒体共存
简短
4
传播速度快
5
丰富
微博数据特点-用户
身仹识别
(账号体系)
个性化
(行为/偏好)
社会化分工
产品设计-用户推荐
产品目标
优化用户
关系网络
微观-用户:改善feed流,更好的满足用户内容消费、社交需求
宏观-平台:加速高价值关系缔结;构建商业信息定向传播渠道
找人页 加关注后实时推荐 新的好友页 feed流
产品设计:顺应用户行为、自然流畅,先从最有效的推荐场景入手
产品设计-用户推荐
产品设计-内容推荐
加速优质信息传播
延伸内容消费链条
主题聚合
赞过的微博正文页相关推荐错过的微博
架构设计-数据存储、传输和计算
数据仓库:Hadoop
spark/MapReduce
分布式仸务调度
流式计算:storm即时用户行为
redis
lushan
hbase
文本文件
Kafka/scribe
offline
online
在线计算:即时性要求高的轻型、快速运算
离线运算:对时间丌敏感的重型计算
架构设计-推荐系统
Client
UVE 运营广告
应用层:nginx+lua
在线服务:lab_common_so
(流量切分/算法策略选择/排序)
候选融合不初选
离线推荐结果
离线数据存储不计算:hadoop/MapReduce/spark
半加工品:推荐资源数据
模型训练
流式计算
storm
IDX
实时数据
用户行为/
实时内容
openAPI
基础feature:
如粉丝数
加工feature
场景feature
算法实践-算法体系
online
offline
Content-based 协同过滤
Learning to rank:如LR
核心
算法
混合
技术
基础
算法
NLP 用户分析 传播模型
模型混合 时序混合
数据
加工
用户亲密度 用户影响力 领域关键节点
粉丝相似度 关注相似度 兴趣协同
LDA
算法实践-协同过滤
Item-based
Edgerank
KeyUser-based
User-based
协同过滤
类协同过滤算法,融入
时间衰减
兴趣领域与家的推荐,
少数人的智慧
基于相似用户的群体喜好
推荐历叱消费相似的item
算法实践-相关性推荐
Content-based:典型案例—正文页相关推荐
流式
(微博/话题/长微博)
静态
(用户/音乐/图书/电影)
内容分析
分词/分类/核心词
内容质量/anti-spam/热度
排重:拼音编码/文本指纹
候选集索引
在线
运算 微博数据 内容分析 索引查询 相关度计算 CTR排序
词扩展训练
word2vec
离线
分析
词相关度数据
算法实践-预估模型
推荐计算服务
CTR预估/ranking
实时feature
前
端
服
务
数据存储
用户/item/场景
feature
Ctr预估model
用户profile库
feature构造 CTR计算
数据 & 候选集……
ctr*click value 计算排序
Item/场景
用户点击数据
推荐曝光数据
uid 特征提取(分析/查询)
效果评估
候选item预估ctr
算法实践-时序混合
时序混合:多个简单算法/模型的有效融合,强于1个复杂的算法
推
荐
请
求
可信的群体选择
离线协同过滤运算
推荐结果
在线推荐服务
实时曝光
点击日志
基本假设:点击同一个正文页的用户皆为相似用户,通过贝叶斯平
滑选择点击率最好的item推荐即可。
其中, 为用户i的正文页推荐结果历叱点击率
_
1.0
log
( )
n
i average ctr
score
user i
item
view

 


 

_ ( )average ctruser i
算法实践-模型融合
LR
分层模型融合
多层LR,或LR+GBDT
上一层模型的结作为下一层的输入
分片线性模型
分片拟合,分而治之
每个模型应用于其效果最好的条件流量
如用户推荐采用蓝V、橙V、普户3个模型
商业推荐04
推广信息
转发
赞
一次投放
二次引爆
关键节点不核心粉丝
商家代投,增加曝光几率
点评
名人
关键节点
产品代言人企业营销需求
拉近明星、
品牌、用户
的距离
名人影响力
引渡到品牌上
社交资产变现
微博
算法实现
定价:
第一档:购买率>min_threshold:max{price}
第二档:max{P(购买率|用户类型,price1)*price2}
第三挡:max{P(购买率|用户类型,
price1,pric2)*price3)
最大包:全部受众
分包:max{eCPM*(1+P(复购率|eCPM,ROI)}
受众定向
现有粉丝
潜在粉丝:通过投放转化为粉丝
领域关键节点:精准定向,借力关系网络
算法实现
潜在粉丝:max{TTR+RPM}
领域关键节点:
相关性、目标受众数量、转发概率
个性化定价与分包
先定价:客户心理价格学习
后分包:选择合适的ECPM,确定包的投放人数
算法优化目标:max{(实际曝光量+互劢数)/一层曝光量)}
THANK YOU!

Contenu connexe

En vedette

En vedette (20)

Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
慧数据,联未来 -- 助力企业客户构建数据服务生态
慧数据,联未来 -- 助力企业客户构建数据服务生态慧数据,联未来 -- 助力企业客户构建数据服务生态
慧数据,联未来 -- 助力企业客户构建数据服务生态
 
Tachyon 2015 08 China
Tachyon 2015 08 ChinaTachyon 2015 08 China
Tachyon 2015 08 China
 
大数据下的大表Join计算和优化
大数据下的大表Join计算和优化大数据下的大表Join计算和优化
大数据下的大表Join计算和优化
 
A Discussion of Learning Analytics on Big Data 基于大数据的学习分析研究
A Discussion of Learning Analytics on Big Data 基于大数据的学习分析研究A Discussion of Learning Analytics on Big Data 基于大数据的学习分析研究
A Discussion of Learning Analytics on Big Data 基于大数据的学习分析研究
 
Big Data Security (ChinaNetCloud - Guiyang Conference)
Big Data Security (ChinaNetCloud - Guiyang Conference)Big Data Security (ChinaNetCloud - Guiyang Conference)
Big Data Security (ChinaNetCloud - Guiyang Conference)
 
Data Journalism Training @ Southern Metropolis Daily, Guangdong, China
Data Journalism Training @ Southern Metropolis Daily, Guangdong, ChinaData Journalism Training @ Southern Metropolis Daily, Guangdong, China
Data Journalism Training @ Southern Metropolis Daily, Guangdong, China
 
数字阅读推广与大数据
数字阅读推广与大数据数字阅读推广与大数据
数字阅读推广与大数据
 
MariaDB: 新兴的开源大数据引擎
MariaDB: 新兴的开源大数据引擎MariaDB: 新兴的开源大数据引擎
MariaDB: 新兴的开源大数据引擎
 
北大一智-教育大数据
北大一智-教育大数据北大一智-教育大数据
北大一智-教育大数据
 
大数据人才招聘
大数据人才招聘大数据人才招聘
大数据人才招聘
 
Silf2012lw3
Silf2012lw3Silf2012lw3
Silf2012lw3
 
Introduction to big data
Introduction to big dataIntroduction to big data
Introduction to big data
 
Hadoop-分布式数据平台
Hadoop-分布式数据平台Hadoop-分布式数据平台
Hadoop-分布式数据平台
 
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
大数据知识及技术简介(Introduction to basic concepts and techiques of big data in Chinese)
 
Bloomfilter
BloomfilterBloomfilter
Bloomfilter
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
数据让机器更智能
数据让机器更智能数据让机器更智能
数据让机器更智能
 
[2015 e-Government Program]City Paper Presentation : Wuhan(China)
[2015 e-Government Program]City Paper Presentation : Wuhan(China)[2015 e-Government Program]City Paper Presentation : Wuhan(China)
[2015 e-Government Program]City Paper Presentation : Wuhan(China)
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
 

Similaire à BDTC2015 新浪微博-姜贵彬-大数据驱动下的微博社会化推荐

2011外贸新盈利模式突围v3.1 第三模块
2011外贸新盈利模式突围v3.1 第三模块2011外贸新盈利模式突围v3.1 第三模块
2011外贸新盈利模式突围v3.1 第三模块
huaxiadnb2
 
产品中数据分析的点滴分享
产品中数据分析的点滴分享产品中数据分析的点滴分享
产品中数据分析的点滴分享
mintcats
 
產品核心 - 媒體數據分析整合服務
產品核心 - 媒體數據分析整合服務產品核心 - 媒體數據分析整合服務
產品核心 - 媒體數據分析整合服務
Roca Chang
 
电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx
cubead
 

Similaire à BDTC2015 新浪微博-姜贵彬-大数据驱动下的微博社会化推荐 (20)

0930_香港男性護髮族群輪廓
0930_香港男性護髮族群輪廓0930_香港男性護髮族群輪廓
0930_香港男性護髮族群輪廓
 
2011外贸新盈利模式突围v3.1 第三模块
2011外贸新盈利模式突围v3.1 第三模块2011外贸新盈利模式突围v3.1 第三模块
2011外贸新盈利模式突围v3.1 第三模块
 
數據營運與指標設計 web analytics 101 slideshare
數據營運與指標設計 web analytics 101 slideshare數據營運與指標設計 web analytics 101 slideshare
數據營運與指標設計 web analytics 101 slideshare
 
20210202 金控口碑數據洞察
20210202 金控口碑數據洞察20210202 金控口碑數據洞察
20210202 金控口碑數據洞察
 
SoWork品牌定位服務
SoWork品牌定位服務SoWork品牌定位服務
SoWork品牌定位服務
 
产品中数据分析的点滴分享
产品中数据分析的点滴分享产品中数据分析的点滴分享
产品中数据分析的点滴分享
 
別忽略就在您身旁的數據 掌握商業價值 你用過Google Analytics這個分析工具嗎 網站分析成效優化分享版
別忽略就在您身旁的數據 掌握商業價值 你用過Google Analytics這個分析工具嗎 網站分析成效優化分享版別忽略就在您身旁的數據 掌握商業價值 你用過Google Analytics這個分析工具嗎 網站分析成效優化分享版
別忽略就在您身旁的數據 掌握商業價值 你用過Google Analytics這個分析工具嗎 網站分析成效優化分享版
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
Ga分析從頭學
Ga分析從頭學Ga分析從頭學
Ga分析從頭學
 
SoWork消費者輪廓顧問服務
SoWork消費者輪廓顧問服務SoWork消費者輪廓顧問服務
SoWork消費者輪廓顧問服務
 
B2B 行业的社会化运营模式_201406
B2B 行业的社会化运营模式_201406B2B 行业的社会化运营模式_201406
B2B 行业的社会化运营模式_201406
 
產品核心 - 媒體數據分析整合服務
產品核心 - 媒體數據分析整合服務產品核心 - 媒體數據分析整合服務
產品核心 - 媒體數據分析整合服務
 
欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案欧赛斯山丽网络整合营销提案
欧赛斯山丽网络整合营销提案
 
[網路星期二] 網站流量分析---這樣做就對了!!:環資-大誌-Wilson
[網路星期二] 網站流量分析---這樣做就對了!!:環資-大誌-Wilson[網路星期二] 網站流量分析---這樣做就對了!!:環資-大誌-Wilson
[網路星期二] 網站流量分析---這樣做就對了!!:環資-大誌-Wilson
 
林合昕:雲端運用案例分享-從協助單位導入O365角度@2019 非營利組織資訊運用座談會(高雄場)
林合昕:雲端運用案例分享-從協助單位導入O365角度@2019 非營利組織資訊運用座談會(高雄場)林合昕:雲端運用案例分享-從協助單位導入O365角度@2019 非營利組織資訊運用座談會(高雄場)
林合昕:雲端運用案例分享-從協助單位導入O365角度@2019 非營利組織資訊運用座談會(高雄場)
 
电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx电商行业案例分享(苏宁、乐酷天).pptx.pptx
电商行业案例分享(苏宁、乐酷天).pptx.pptx
 
OMI Shanghai workshop on Social Analytics 23 May 2011
OMI Shanghai workshop on Social Analytics 23 May 2011OMI Shanghai workshop on Social Analytics 23 May 2011
OMI Shanghai workshop on Social Analytics 23 May 2011
 
国内顶尖企业的大数据需求预测怎么做
国内顶尖企业的大数据需求预测怎么做国内顶尖企业的大数据需求预测怎么做
国内顶尖企业的大数据需求预测怎么做
 
WBS网络营销实战培训
WBS网络营销实战培训WBS网络营销实战培训
WBS网络营销实战培训
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 

Plus de Jerry Wen

Plus de Jerry Wen (8)

BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
BDTC2015 阿里巴巴-郑斌-大数据下的数据安全
 
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
BDTC2015 南京大学-黄宜华-octopus(大章鱼):基于r语言的跨平台大数据机器学习与数据分析系统
 
BDTC2015-新加坡管理大学-朱飞达
BDTC2015-新加坡管理大学-朱飞达BDTC2015-新加坡管理大学-朱飞达
BDTC2015-新加坡管理大学-朱飞达
 
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
BDTC2015 阿里巴巴-鄢志杰(智捷)-deep learning助力客服小二:数据技术及机器学习在客服中心的应用
 
BDTC2015 hulu-梁宇明-voidbox - docker on yarn
BDTC2015 hulu-梁宇明-voidbox - docker on yarnBDTC2015 hulu-梁宇明-voidbox - docker on yarn
BDTC2015 hulu-梁宇明-voidbox - docker on yarn
 
BDTC2015 京东-刘海锋-大规模内存数据库jimdb:从2014到2016
BDTC2015 京东-刘海锋-大规模内存数据库jimdb:从2014到2016BDTC2015 京东-刘海锋-大规模内存数据库jimdb:从2014到2016
BDTC2015 京东-刘海锋-大规模内存数据库jimdb:从2014到2016
 
BDTC2015 databricks-辛湜-state of spark
BDTC2015 databricks-辛湜-state of sparkBDTC2015 databricks-辛湜-state of spark
BDTC2015 databricks-辛湜-state of spark
 
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
BDTC2015 启明星辰-潘柱廷-中国大数据技术与产业发展报告
 

BDTC2015 新浪微博-姜贵彬-大数据驱动下的微博社会化推荐