导读 自从 MMoE 和 PLE 大杀四方,获得 RecSys Best Paper,多任务 CTR/CVR/StayTime 还有什么做法?本文介绍了 Shopee 提出的在用户分群基础上进一步细化多任务效果的优化方法–用户生命周期视角下的多任务推荐模型。(论文链接:https://arxiv.org/abs/2306.12232)
主要包括以下部分:
1. 业务背景
2. 关键问题
3. 解决方案
4. 离线效果
5. 工作价值
6. 结论展望
分享嘉宾|郑文豪、李宛达、肖玄基 深圳虾皮科技有限公司 算法专家
编辑整理|王丽颖
内容校对|李瑶
出品社区|DataFun
01业务背景
本文工作是从业务出发提出的一项创新性工作,首先来介绍一下业务背景。
图中所示是常见的 Shopee 双列流 feed,用户点击一个直播后,会进入全屏沉浸流,产生消费时长,同时也可以点击购买商品,产生消费下单。
该路径下的用户会经历几个阶段:
- 新用户阶段,订单与时长都较低。
- 后续在平台进行闲逛,时长增加,订单转化仍较低,对于此部分用户,不适合推荐杂乱的直播间,而更适合推荐优质商品的、能够让人沉浸的直播间,会让用户逛得更久。
- 对于平台的忠诚用户,其 CVR 转化较高,但其目标明确,时长可能会相应减少,对于此部分用户,适合推荐简单易转化的商品。
因此,不同用户群体对不同任务指标的偏好相差较大,通过数据分析,我们发现 CTR、停留时长、CVR 任务的用户群分布类似于幂律分布。对于不同阶段的用户,CTR、停留时长、CVR 等分布也不同,新用户的 CTR、停留时长等分布较为靠后。因此,我们观测到不同任务指标的偏好与用户当前的状态密切相关,且用户状态会随时间而变。
02
关键问题
我们从数据分析中提炼出了如下的关键问题:现有方法中在多任务优化时,对所有用户一视同仁,会导致优化跷跷板现象。因此问题核心是要准确追踪用户状态,才能同时提高 CTR、时长和订单指标。对此问题进行拆解,可以得到如下三个子问题:如何识别用户状态,如何追踪用户状态信息以及如何结合用户状态优化多任务模型。
03
解决方案:STAN
针对以上问题,我们提出了 STAN 这一解决方案。STAN 网络如上图所示,分为几个部分:右侧是传统的 MMoE 的模型结构,是 PLE 模型;左侧是对用户信息建模,用户信息会反映在 loss 上,对 loss 进行调整。
1. 雾里看花:如何识别用户状态?
首先,第一个问题是如何识别用户状态。我们使用了用户特征抽取网络建立特征间的交互关系,通过 Attention 网络结构,针对特定任务生成含有用户倾向信息的用户表征。在此之上构建 loss,Label 为用户是否点击、购买等。这里没有 Item 侧信息,Label 的平均估计为用户对 CTR、CVR、时长等的偏好。
2. 拨云见日:如何准确追踪用户状态?
通过对用户每个目标的预估值,就能够大概知道用户处于哪个状态,同时针对每个用户,我们引入了用户自适应的 Beta 分布对用户倾向的预测值重采样。Beta分布在用户数据较少情况下置信度低,此时预估值较为不准确,需要引入重采样校正方法校正产出预估值,从而降低极端数据影响。
3. 登堂入室:如何结合用户状态,优化多任务模型?
最后是结合用户状态,优化多任务模型。多任务模型的优化部分会叠加本身多任务模型 loss 与用户状态 loss,同时训练,同步迭代。
04
离线效果
1. 离线效果:理解性实验
首先,我们进行了理解性试验,验证离线效果。
如何验证本文方法能否识别用户状态呢?我们对比了同一组用户在不同模型的表征。如上图所示,STAN 模型对于 Wander、Stick、Loyal 用户分群下的表示比 PLE 区分度更大。该图是对用户 Emb 降维到二维空间构建的,PLE、STAN 模型用的用户 Emb 是通过 userid 抽取得到的。
另一个问题是,本文方法能否准确追踪用户状态?我们对比了同一组用户在不同日期的状态,如上图右下角的图中所示,五星表示用户,Day 1 用户处于 New 的状态,Day
31 则变为 Wander 和 Stick 状态,说明本方法能够自适应地追踪用户状态的变迁。
2. 离线效果:Shopee Dataset
我们采用工业数据集对效果进行了验证,为了方便对比,我们使用了三周的数据进行训练,一周的数据进行测试。评估指标是 AUC,NDCG@1。在图中的 PLE 模型中,我们添加了 stage 的标识,固定了 2 个 stage,任务准确率有一定提升。在增加自适应 stage 后,准确率有所提升,但模型波动较大。加入 Beta 重采样后,准确率稳中有升,模型更加稳定。
3. 离线效果:Public Dataset
我们在公开数据集:微信视频号数据集上进行了验证,其中有三个目标:点赞、点 up 主头像、转发,评估指标是 AUC,NDCG@5,其中 NDCG@5 是该数据集中的公开对比指标。从图中可以看出,实验效果与 Shopee 数据集表现类似。
05
工作价值
我们将此工作在线上进行了验证,base 是 PLE 模型,实验组增加了 STAN 模型。实验效果 CTR+3.94%,staytime+3.05%,order+0.88%,每个指标都有所增长。其中 order 增长较小,是因为 Shopee 平台上的 order 量还比较小,相应的用户群也较小,因此提升稍弱一些。
本文的工作已被 Recsys’23 接收。
06
结论展望
总结来说,我们应当重视推荐系统中用户的生命周期;在多任务学习中需要显式建模用户生命周期;同时我们需要立足于线上真实分布的数据,深挖技术突破点。
未来,我们会在每一层的推荐候选中结合用户生命周期进行细粒度调整;同时也希望创新方法可以落地,业务也需要进行持续创新。
以上就是本次分享的内容,谢谢大家。
分享嘉宾
INTRODUCTION
郑文豪、李宛达、肖玄基
深圳虾皮科技有限公司
算法专家
本硕皆是南京大学计算机系,硕士期间在 lamda 实验室研究机器学习与数据挖掘。毕业五年,在微信、阿里、字节都从事搜索推荐算法相关工作,对 qp、召回、粗排、精排、重排等模块都有深入研究。发表过多篇论文,包括 ICDE、WWW、AAAI、Recsys 等。相关论文皆在业务场景中落地,并取得较大的效果。目前在虾皮主要做直播推荐,侧重订单模型及重排模型等。
限时免费资料
往期优质文章推荐
往期推荐
大型制造企业智能决策场景解析
Open Vocabulary Detection 开放世界目标检测竞赛 2023获胜团队方案分享
混合存储架构中的数据编排
腾讯 PCG 数据治理体系
大模型视角下的因果推断
大模型分布式训练效能提升的必要性(万字长文推荐收藏)
火山引擎 DataLeap 计算治理自动化解决方案实践和思考
知乎是怎样进行埋点平台建设升级的?
字节跳动 Spark Shuffle 大规模云原生化演进实践
为何要用向量数据库?成本,成本,成本!
超越Midjourney?基于语境学习训练图像扩散模型【前沿】
MaxCompute湖仓一体方案新能力
网易云音乐推荐系统的冷启动技术
大语言模型在推荐系统的实践应用
点个在看你最好看