在更进一步的人类评估中,标注人员在对比DPO与SFT推理文本时,认为DPO的推理更为合理,win rate达到了35.6%。
2.3 RAG信息增强
💡线上曝光体验优化:通过思维链指令微调、DPO指令微调、RAG信息增强、自适应权重贴合用户需求,为用户带来发现性体感。
🧠LLM意图推理增强:包括短期标签推理的发散和长期画像标签归结,以及标签聚类的设计与评估,优化用户认知画像。
🌟LLM CTR框架创新:由基础模型结构、线上服务部署等构成,提升非活跃用户体验,增强推荐效果。
淘天集团算法技术 2025-01-22 08:31 浙江
认知推荐是深入了解用户需求的窗口,淘天集团算法技术团队致力于摒弃平台固有属性的束缚,从用户的角度出发,全面审视推荐链路中的潜在问题。本文深入分析如何通过一系列技术改进,将大模型无缝集成到现有的推荐系统...
这是2025年的第9篇文章
( 本文阅读时间:15分钟 )
自大型语言模型(LLM)问世以来,其影响力逐渐渗透到推荐算法领域。在推荐算法领域中,如何有效利用大模型的能力,主要存在两种思路:一种是“改良派”,旨在通过大模型技术增强现有系统性能,在实际应用中逐步优化;另一种是“革命派”,认为现有推荐框架限制了大模型发挥,与其在已有的框架下小修小补,不如直接掀桌重开。认知推荐属于“改良派”的一种,它快速锚定了推荐中的“信息茧房”问题,通过大模型构建认知链路来深化用户兴趣探索,提升整个链路发现性水平,最终提升用户体验。
作者:沉雨、昱桀、点尘、致立、福澜、青雅、语玥、武见
01
前言
本文将深入分析如何通过一系列技术改进,将这些先进的大模型无缝集成到现有的推荐系统中,从而实现更精准、更个性化的推荐结果。这两篇文章在技术层面各有侧重,但可以构建出一幅更为详尽且结构化的认知推荐系统全景图。
认知推荐是深入了解用户需求的窗口,算法团队致力于摒弃平台固有属性的束缚,从用户的角度出发,全面审视推荐链路中的潜在问题。本文将重点讲述线上曝光体验、LLM意图推理、LLM CTR三个认知推荐方面的工作。
认知推荐的整体链路如上图所示,不同于传统推荐的关注要点在于:
· 线上曝光体验[图中①]:“发现性体感”是一种让用户感受到新鲜、有趣甚至意料之外的体验,同时,这些感受是带有时效性与情境化的特点,使用户在不经意间获取到新的信息和灵感。
· LLM意图推理:包含DoR(Description of Requirement) Model[图中②]和RecGPT Model:依托大模型的社会/世界知识,生成用户的认知画像,并最终产出用户意图标签。
· 发现性召回:根据 RecGPT 获取的用户意图检索用户的个性化商品,其中包括个性化向量检索和结合搜索服务等多种检索方式。
· LLM CTR[图中③]:利用LLM更好的泛化能力,弥补ID特征在非活跃用户上的不足,提升在中长尾用户上的打分准度。
本文将主要讲述图中①②③模块的工作。
02
线上曝光体验优化,带来用户发现性体感
2024年11月初,北京市民张先生在浏览淘宝商品时,注意到页面上显示的一则提示信息:“北京将要降温”。这一精准推送提醒了他对外套的需求,从而促成了他的购买决策。
这一场景的背后,是算法团队在推荐系统当中引入大模型,旨在为用户带来“发现性体感”,例如,随着季节变化,推荐适合的季节类商品,并提醒用户“即将降温”;当热点事件被广泛讨论时,如奥运会或者“黑神话悟空”引起全民热议时,用户可以不经意间发现相关的商品。
时令、天气、热点的核心训练流程是相似的,主要包括思维链(Chain of Thought, CoT)、偏好优化(Direct Preference Optimization)、信息增强(Retrieval-Augmented Generation)、以及自适应权重调整(Adaptive Weighting)四个关键模块。
2.1 思维链指令微调
在当前的算法开发流程中,算法团队将提示词工程视为大模型指令微调的首要步骤。通过采用思维链技术,算法团队将复杂问题分解为逻辑清晰的步骤,通过引导解决每一步骤的问题来达到最终的答案。
例如,针对热点场景的应用需求,算法团队确定了三个关键目标:首先,需要准确评估用户对当前热点话题的兴趣程度;其次,需要推荐的商品与热点事件紧密相关;最后,需要输出结果遵循固定的JSON格式。
为了实现上述目标,算法团队利用GPT-4对提示词进行生成回复,并通过人工标注和数据清洗过程,构建了一套高质量的监督学习(Supervised Fine-Tuning, SFT)训练数据集。同时,团队采用了低秩适应(Low-Rank Adaptation, LoRA)方法对LLM进行高效微调。兼顾运行成本以及效果,团队最终选择了7B参数量的基座。
2.2 DPO指令微调
为进一步提升7B模型的推理能力,算法团队采用了数据合成进一步指令微调,仿照 LLAMA 3.1 的流程,进行了拒绝采样与DPO偏好对齐。
与通用的LLM对齐不同的是,在本领域场景中,由于提示词种类相对有限,算法团队并未单独训练一个奖励模型,而是利用GPT 4o作为奖励模型,每个回答获得一个1至5的评分,增长的分数分别表示略微好于、稍好于、好于以及显著好于,然后抽取好于和显著好于的成对数据组成chosen集与rejected集,用于DPO模型的训练。
DPO 的 loss 公式如下:
在更进一步的人类评估中,标注人员在对比DPO与SFT推理文本时,认为DPO的推理更为合理,win rate达到了35.6%。
2.3 RAG信息增强
RAG是一种结合信息检索技术和大语言模型的生成方法。在处理热点任务时,该技术能够对公众关注的新闻事实进行深入分析和解读,显著提升生成内容的准确性和相关性。
算法团队通过对比实验,分别对加入RAG数据和未加入RAG数据的模型进行了微调,并进行了人工评估。结果显示,引入外部知识的RAG增强模型在性能上远超未增强的基线模型,其 win rate达到了41.8%。
2.4 自适应权重贴合用户需求
在大模型训练完成后,算法团队可以结合时令、节气、天气和网络热点,为用户生成个性化的商品推荐标签。然而,为了确保推荐结果的精准性和相关性,必须对生成的标签进行适当的控制和优化。例如,在北方地区气温显著下降时,向用户推荐羽绒服并在前端显示“即将降温”的提示,可以显著提升用户体验。而在南方天气舒适的情况下,对相关保暖商品的需求可能相对较低。
此外,网络热点的差异性尤为明显,不同用户群体对热点事件的关注度和兴趣各不相同。因此,算法团队在推荐链路中加入了自适应权重模块,能够根据实时数据动态调整各个标签的权重,从而确保推荐结果更加贴合用户的实际需求。
03
LLM意图推理增强,优化用户认知画像
电商平台长期以来一直扮演着“购买意图决策终点”的角色,主要承担用户最终的购买决策结果,而难以获取用户购物偏好背后的动因。这种信息不对称的情况长期存在,导致平台在理解用户需求方面存在局限性。
特别是在推荐场景中,由于缺乏用户的购前信息和特征,这种情况更为显著。相比于搜索场景和内容平台,推荐系统通常被称为“沉默的推荐”,因为它们在捕获用户意图和背景信息方面相对不足。
如何更好地理解用户来到淘宝的目的?对于这一问题,算法团队提出的方案可以简单理解为“先发散,再归结”的两步走:
发散:根据用户购物偏好进行发散性的画像标签推理。例如,用户购买发饰流苏的原因种类较多,可能用于古风穿搭、时尚搭配、或是出古风角色的 cosplay 等,无论哪种都很难给出是或不是的二元判断,最多只能给出其可能性的高低。
归结:将发散推理中的标签依次收集起来,可以归纳获得一些存在共性的标签,其蕴含可能性来源于多种不同的购物依据。积少成多,当一个标签背后的购物依据具备足够的数量和足够的置信度,配合上间隔日期、分布趋势变化等特征进行加减权后,算法团队就可以对其进行初步判断。
3.1 发散推理:短期标签推理
只有短期画像能以足够的角度发散性地推理,算法团队才有可能尽量多地召回用户的实际偏好。在当前版本,算法团队选择了15日作为滑动窗口对用户的购物偏好进行学习理解。
利用短期标签推理,算法团队可以得到非常多的用户来淘宝的理由,一方面可以帮助算法团队做短期的相关推荐(比如用户购买了发饰流苏后,算法团队可以推荐汉服配饰、马面裙、纤维假发等关联性商品),另一方面也在进入长期画像标签归结中得到更加置信且稳定的用户需求描述。
3.2 归结推理:长期画像标签归结
对于长期画像标签归结而言,收集各周期的短期标签推理结果,同含义短期标签会在聚合后进行判断:
频次验证准入,指的是一个标签对于当前用户而言具有较高的占比,或对于全部用户而言具有较高的独特性
周期性验证准入,指的是一个标签会周期性地出现,或经历较长的时间间隔后仍多次出现
长效性验证准入,指的是一个标签横跨多个周期,或直到近短期仍有出现的标签。后续还将考虑引入社会属性、行为统计等特征交叉验证比对。
长期标签的归结会让算法团队更置信地去了解一个用户,比如用户追求性价比,或者有周期购买洗手液的习惯,这些信息帮助算法团队在推荐的时候打破短期购物驱动,更关注用户实际需求。
3.3 标签聚类:聚类模块设计与评估
LLM产出的标签会具有多样性和随机性,如未将标签进行聚类,则会存在同一含义的标签被多种不同的表述方式分散开,很难量化并判断哪一种类的标签具备更高的置信度。于是,算法团队提出了在假设“已有标签簇正确”的情况下,复杂度为O(N⋅K)O(N⋅K)的在线聚类算法方案:
在算法团队测试的四类表征模型中,按效果排序为 bge > ops > ada > text2vec。综合考虑分类精度和内部聚合度之间的平衡,bge-large-zh 模型的整体表现更为理想。
04
LLM CTR框架创新,提升非活跃用户体验
当前基于强ID特征的推荐系统在个性化推荐方面表现出色,但在泛化能力和对世界知识的利用上仍存在局限。特别是对于中低活跃度用户,这类系统往往无法充分学习其购物偏好,导致发现性推荐的效果不尽如人意。
为应对这一挑战,算法团队提出了一种创新的推荐排序系统架构——LLM-CTR。该架构通过引入LLM的世界知识,并结合原有的ID特征后验优势,共同构建用户与商品之间的关联,从而弥补了ID特征在非活跃用户上的不足,显著提升了推荐结果的多样性和准确性。
4.1 LLM-CTR基础模型结构
LLM-CTR基础模型的完整结构如下图所示,由LLM编码模块和任务预测层两部分组成,其中LLM编码模块部分参与推荐任务端到端的训练,但只有任务预测层会被单独分离出来提供线上服务。
LLM编码模块
商品特征:使用结构化的商品描述作为prompt输入,通过LLM编码生成商品特征向量,由此可以确保商品特征的丰富性和语义表达能力
画像特征:使用结构化的人群描述作为提示输入,通过大型语言模型编码生成用户向量,捕捉用户的静态属性和偏好
序列特征:对每一条重要的历史序列,使用其中包含的商品的LLM编码向量堆叠后的矩阵表示进行序列表征。由于现有序列存在大量重叠,算法团队引入了全局行为序列(global seq),添加了点击label、成交label、时延、场景等信号,这些信号用类似于bert的位置嵌入(pos embedding)方式加入。
任务预测层(CTR模块)
经过LLM编码模块之后,算法团队将LLM编码模块得到的用户/商品向量根据所属特征部分按照传统推荐模型的结构进行组织,通过特征融合层和MLP层,预测最终的CTR分数。
4.2 线上服务部署
模型训练和上线时,算法团队遵循以下流程:
端到端采样数据训练完整模型:使用采样的数据对完整模型进行端到端训练,确保模型各部分的协调优化
分离LLM编码模块:从完整模型中分离出LLM编码模块,预测并存储全部用户embedding和商品embedding
分离任务预测层:使用上一个流程中存储的用户embedding和商品embedding,重新训练任务预测层CTR模块,确保其在全量样本上的性能
线上服务:仅使用上一个流程中训练好的任务预测层进行实时打分。
4.3 实验和数据分析
线上实验中,算法团队采取在原有的首猜商品推荐排序模型的基础上,进行LLM-CTR发现性排序打分融合的方式。融合公式如下:
得益于离在线分离的部署方式,发现性排序打分的rt相比基线更低,在和基线并行调用的时候,不会带来额外的rt消耗。
通过对发现性融合分和基线CTR分有显著差异的这部分打分变化幅度较大的商品的抽样,算法团队发现新版融合分打压的商品主要是一些骗点击但成交可能性不高的商品。以下是线上实验过程中,一些打压商品和奖励商品的示例:
在不同活跃度用户群体中,算法团队观察到了以下两个现象:
模型在低活跃度和中低活跃度用户中的表现优于其他群体。传统ID表征在推荐系统中存在固有的局限性,尤其是在处理低活跃度用户和冷启动场景时,而通过引入LLM进行世界知识的输入,可以在一定程度上缓解这一问题,从而提升低活跃度用户的推荐效果。
高活跃度用户的发现性曝光和点击率也有所提升。对于高活跃度用户而言,传统ID表征已经在效率指标上取得了较好的成绩。然而,在发现性方面,随着PV增加,高活跃度用户往往会陷入“信息茧房”的困境。通过LLM的世界知识注入,不仅能够增强高活跃度用户的发现性体验,还能够打破越高活越高热的推荐问题,拓展高活人群的商品宽度。
数据表明,淘天集团算法团队推出的认知推荐技术在淘宝“猜你喜欢”场景中,显著提升了发现性的比例,不仅改善了用户体验,还促进了用户下滑页面浏览量(PV)及回访率等长期关键指标的增长。这种方法不仅为用户提供了更为丰富和个性化的体验,同时也为平台带来了持续的价值增长。本文介绍的三项工作在淘宝“猜你喜欢”功能上线后,整体发现性PVR提升了8%,并且在低活跃度用户群体中实现了页面浏览量和成交额的双重增长。尽管认知推荐领域仍面临诸多挑战,系统链路也可能经历迭代、优化甚至重构,但不变的是算法团队通过技术创新持续提升电商用户体验的决心。
欢迎留言一起参与讨论~
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑