掘金 人工智能 07月18日 10:53
前沿论文分享 | 京东零售技术团队5篇论文入选SIGIR 2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

京东零售技术团队的五项研究成果成功入选国际计算机学会信息检索大会(SIGIR 2025),该会议是信息检索领域的顶级A类国际学术会议。这些研究聚焦于电商搜索推荐和广告投放中的“精准匹配”难题,旨在提升用户查找商品的效率和广告的触达精准度。研究成果有效解决了复杂场景下的技术瓶颈,并在实际业务中展现了推动增长的价值,为电商行业的智能化发展提供了重要支撑。

📊 **图同构网络在点击率预测中的创新应用**:该研究提出一种基于图同构网络(GIN)的群体建模方法,有效解决了冷启动用户点击率预测中的两大难题:活跃用户行为编码的简单化以及虚拟行为表征的兴趣表达受限问题。通过捕捉用户-物品高阶交互关系,该方法能更精细地刻画用户多样化兴趣,减少嵌入构建偏差,显著提升了模型在活跃用户和冷启动用户上的预测效果。

🚀 **因果最优传输提升广告点击率预测精度**:针对广告投放中的post-event特征(如停留时间)在推断阶段不可得的问题,研究提出了因果最优传输(COT)框架。该框架通过半监督伪标注生成点击后伪特征,利用因果分布调整器(CDS)生成精准的因果特征分布,并借助最优传输优化特征分布,从而实现知识迁移。实验证明,COT能有效提升用户兴趣建模和偏差缓解,显著提高CTR预测的准确性。

💡 **ADORE系统实现电商相关性判别的智能化**:为解决电商场景下难样例数据稀缺和浅层模型推理能力弱的问题,ADORE系统被提出。它利用思维链推理大模型自动生成领域特定难样本,并通过KTO强化学习对齐用户行为。此外,系统还设计了错误类型感知的生成大模型,生成对抗性样本。通过将大模型知识迁移至浅层模型,ADORE在相关性和广告收入方面表现出色,为工业级相关性建模提供了资源高效的新范式。

🎯 **多目标对齐买词生成模型优化电商搜索广告**:针对电商搜索广告中长尾查询导致检索效率低下的问题,该研究提出了一种多目标对齐买词生成模型(MoBGM)。该模型包含判别器、生成器和偏好对齐模块,能够同时优化查询与重写的相关性、真实性以及广告收益。通过设计判别器预测多重得分,并利用其反馈信号训练生成器,MoBGM显著优于现有算法,并在部署后为平台创造了巨大的商业价值。

📈 **层次化用户长期行为建模优化点击率预测**:为解决Transformer网络在处理长用户行为序列时面临的推理时间挑战,该研究提出了一种端到端层次化用户长期行为建模网络(HBM)。HBM通过多兴趣路由层将用户行为分流至不同兴趣簇,并利用精细兴趣学习网络筛选关键兴趣。随后,Transformer网络对相关行为序列进行精细化建模,同时捕捉不同兴趣间的关联。该方法在京东推荐平台的在线A/B测试中取得了显著提升。

近期,京东零售技术团队5篇研究成果成功入选SIGIR 2025。

SIGIR全称为国际计算机学会信息检索大会(International ACM SIGIR Conference on Research and Development in Information Retrieval),是中国计算机学会CCF推荐的A类国际学术会议。SIGIR 2025会议共有1105篇投稿,接收率仅为21.5%。

本次分享的5篇研究成果聚焦电商搜索推荐和广告投放中的“精准匹配”问题。探索如何让用户更快找到想要的商品,让广告点击预测更准确,能精准触达需要的人。这些成果不仅攻克了复杂场景下的技术瓶颈,更在真实业务中验证了其推动增长的价值,邀请大家一起探讨。

【1】Graph Isomorphism Network-Based Cohort Modeling in Click-Through Rate Prediction

中文标题:基于图同构网络的群组建模在点击率预测中的应用

论文作者:Xuan Ma, Hao Peng, Jia Duan, Zhanhao Ye, Langlang Ye, Zehua Zhang, Jie He, Changping Peng and Zhangang Lin

dl.acm.org/doi/10.1145…

论文简介:

点击率预估任务通常会面临冷启动问题,即新用户因历史行为数据不足而难以进行准确预测。近期研究尝试通过编码器-解码器网络,基于活跃用户数据为冷启动用户生成虚拟行为表征。然而,现有方法存在两大缺陷:对活跃用户行为的编码技术过于简单化,且直接使用虚拟行为表征会导致用户兴趣表达受限、模型泛化能力不足。为解决这些问题,我们提出创新性的基于图同构网络的群体建模方法。该方案通过GIN网络有效捕捉用户-物品高阶交互关系,从而更精细地刻画用户多样化兴趣。结合群体建模策略,可显著减少嵌入构建偏差,增强模型泛化能力。我们在公开数据集和工业数据集上的实验表明,相较现有方法,新方案对活跃用户和冷启动用户均带来显著效果提升。

【2】Post-event Modeling via Causal Optimal Transport for CTR Prediction

中文标题:基于因果最优传输的后验信息建模用于CTR预测

论文作者:Yizhou Sang, Congcong Liu, Yuying Chen, Zhiwei Fang, Xue Jiang, Changping Peng, Zhangang Lin, Ching Law and Jingping Shao

dl.acm.org/doi/10.1145…

论文简介:

精准的点击率(CTR)预测对在线广告至关重要,其依赖于浏览历史、用户画像等常规特征,以及广告位、页面行为等post-event特征。然而,post-event特征在推断阶段不可得,常面临训练-推断不一致性和低覆盖率问题,尤其是停留时间等仅存在于被点击item的点击后特征。为解决这些挑战,我们提出因果最优传输框架(Causal Optimal Transport, COT),其创新性体现在:(1) 通过半监督伪标注生成点击后伪特征;(2) 利用因果分布调整器(Causal Distribution Shaper, CDS)实现精准的因果特征分布生成;(3) 通过最优传输优化特征分布,最小化分布差异以促进知识迁移。基于真实数据的实验验证了COT在通过改进用户兴趣建模和偏差缓解来提升CTR预测方面的优越性。理论分析证明了该框架的鲁棒性。

【3】ADORE: Autonomous Domain-Oriented Relevance Engine for E-commerce

中文标题:基于领域自适应的电商相关性判别系统

论文作者:Zheng Fang, Donghao Xie, Ming Pang, Chunyuan Yuan, Xue Jiang, Changping Peng, Zhangang Lin and Zheng Luo

dl.acm.org/doi/10.1145…

论文简介:

针对电商相关性判别场景所面临的难样例数据稀缺,线上浅层模型推理判别能力较弱的问题,本文提出了基于思维链推理的相关性大模型,自动分析在线曝光商品并生成领域特定的难样本,并通过KTO强化学习算法自动对齐线上用户行为。此外,还设计了错误类型感知的生成大模型,根据线上模型易错场景自动生成对抗性样本。最后,为了将大模型知识迁移到线上浅层模型,我们从COT分析中结果中提取关键属性特征显式增强学生模型的表示与推理能力。大规模实验及在线AB实验表明,ADORE在相关性和广告收入等关键指标上显著优于其它方法,为工业级相关性建模提供了资源高效的新范式。

【4】Multi-objective Aligned Bidword Generation Model for E-commerce Search Advertising

中文标题:多目标对齐广告买词生成模型用于电商搜索广告

论文作者:Zhenhui Liu, Chunyuan Yuan, Ming Pang, Zheng Fang, Li Yuan, Xue Jiang, Changping Peng, Zhangang Lin, Zheng Luo and Jingping Shao

论文链接:arxiv.org/abs/2506.03…

论文简介:

检索系统是电商搜索广告中将用户查询与广告匹配的关键模块。用户的多样化表达方式往往会产生大量长尾查询,这些查询无法与商家的关键词匹配,导致检索效率低下。现有的方法,例如查询日志挖掘和向量匹配,无法同时优化改写的相关性、真实性和广告收益。本文提出了一种新颖的多目标对齐买词生成模型 (MoBGM),它包含判别器、生成器和偏好对齐模块。为了同时提高查询和重写的相关性和真实性,并最大化平台收益,我们设计了一个判别器来预测每个查询和改写对的三个得分。利用判别器的反馈信号,我们训练了一个多目标对齐的买词生成器,以最大化这三个目标的综合效果。大量的离线和在线实验表明,我们提出的算法显著优于目前最先进的算法。该算法部署后,为平台创造了巨大的商业价值,验证了其可行性和鲁棒性。

【5】Hierarchical User Long-term Behavior Modeling for Click-Through Rate Prediction

中文标题:层次化用户长期行为建模在点击率预估中的应用

论文作者:Mao Pan, Xuanhua Yang, Nan Qiao, Dongyue Wang, Feng Mei, Xiwei Zhao, Sulong Xu

论文链接:dl.acm.org/doi/10.1145…

论文简介:

在工业界,点击率(CTR)预测的最先进方法主要依赖于基于 Transformer 的网络及其变体。然而,随着用户行为序列变长,在受限的推理时间内采用自注意力网络进行 CTR 预测面临重大挑战。为解决这一问题,主流方法采用经典的两阶段范式:通用搜索单元(GSU)用于从长期行为中快速检索相关物品,精确搜索单元(ESU)用于对 GSU 筛选出的物品应用有效的多头目标注意力(MHTA)。这些两阶段算法存在一定局限性:首先,GSU 需要为不同的目标物品检索不同的目标子序列,这使得 ESU 只能采用次优的 MHTA 网络,而非更有效的基于 Transformer 的网络;其次,GSU 仅从用户行为序列中检索部分物品,忽略了用户兴趣的演变以及不同兴趣点之间的关联。为此,本文提出一种端到端层次化用户长期行为建模网络用于 CTR 预测(HBM)。具体而言,首先采用多兴趣路由层将用户的长期行为分流到多个聚合的兴趣簇中;此外,引入精细兴趣学习网络,从初始聚合表示中筛选出 top-k 个兴趣;随后,利用 Transformer 网络对与这些 top-k 兴趣相关的用户行为序列进行精细化建模,同时在粗粒度层面捕捉不同用户兴趣之间的内在关联。在京东推荐平台的在线 A/B 有很大的提升。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SIGIR 2025 京东零售技术 信息检索 电商搜索 推荐系统 点击率预测 广告投放
相关文章