掘金 人工智能 05月16日 14:53
MTGR:美团外卖生成式推荐Scaling Law落地实践
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美团外卖推荐算法团队基于HSTU架构提出了MTGR框架,旨在探索推荐系统中的Scaling Law。MTGR对齐传统DLRM模型特征体系,并利用Transformer架构对多条序列进行统一建模。通过极致的性能优化,单样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近两年迭代的最大收益,并于2025年4月底在外卖推荐场景全量上线。该实践经验总结希望能为相关研究提供参考。

💡MTGR框架保留了DLRM原始特征,减少信息损失,并采用统一的HSTU架构对多个序列同时编码,提升学习效果。同时,针对训练和推理框架进行优化,提高计算性能。

✨MTGR模型架构的关键在于输入信息Token化、Group LayerNorm以及动态混合掩码策略。动态混合掩码能更好发挥HSTU作为encoder的学习能力。

🚀MTGR训推引擎通过Kernel优化(Fused Cutlass-based HSTU kernel)和变长序列负载均衡等手段,有效降低了训练成本,并提升了推理效率。尤其是在推理阶段,通过特征H2D优化、CUDA Graph优化和FP16计算等方式,显著降低了推理延迟,提升了吞吐量。

📈实验结果表明,MTGR在离线和在线指标上均大幅超越了DLRM base模型。单样本前向FLOPs提升65倍,首页列表订单量+1.22%,PV_CTR + 1.31%,同时在线推理资源节省12%。

美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。

1. 引言

深度学习中的缩放法则(Scaling Law)是指模型的一些功能属性(通常指评估的损失Loss或任务的评估指标)与模型架构或优化过程的属性(例如模型大小、训练计算量等)之间的关系。直观的理解就是探索模型算力和效果之间的联系,如OpenAI的GPT3、GPT3.5、GPT4在模型参数量、数据量、计算量逐步提升,模型能力(效果)变强。这些法则可以帮助指导深度学习模型的设计和训练。

在自然语言处理、计算机视觉等领域中,Scaling Law已经被多次验证其有效性,然而,对于推荐系统则仍处于起步阶段。目前影响较大的是工作为Meta的GR(Generative Recommendation)。生成式推荐舍弃了当前推荐系统的大量人工特征工程,采用了类似于LLM的纯序列化表示方式表示用户行为,再通过增大模型计算量的方式提升模型的能力,基于原始信息端到端地预估点击率/转化率。

美团外卖推荐场景经过近十年的面向交易目标的迭代,通过传统DLRM(Deep Learning Recommendation Model)模式进一步提升转化率变得十分困难。从生成式框架出发,外卖推荐团队基于HSTU架构针对排序模型进行优化,提出了MTGR(Meituan Generative Recommendation)这一新的架构,成功在美团核心的外卖首页推荐场景落地。对比基准模型,单样本前向推理FLOPs提升65倍,离线CTCVR GAUC + 2.88pp,外卖首页列表订单量+1.22%(近2年迭代单次优化最大收益),PV_CTR + 1.31%。在资源使用上,训练成本与基准模型持平,在线推理资源节省12%。该工作于2025年4月底在外卖首页、频道页、小程序等核心场景完成全量。

2. 工业界生成式推荐探索与挑战

在LLM时代,Scaling Law被证实适用于绝大多数深度学习任务,包括语言模型、图像生成、信息检索等。然而,在推荐系统领域中,伴随用户行为爆炸式增长,传统DLRM建模不能高效的处理全量用户行为,因此往往通过序列检索 、特征工程等方式对重要信息进行加工,但这也同时也限制了模型Scaling的效果。为了解决这一问题,近一年多来,工业界针对生成式推荐展开了系统性探索,主要呈现三种技术路径:

MTGR也是混合式架构的一种,基于该架构,我们保留包括交叉特征在内的全部信息进行建模,采用统一的HSTU架构针对多个序列同时编码提升学习效果;此外,我们对MTGR的训练、推理框架进行针对性优化,大幅提高了MTGR在混合式架构下的计算性能表现。

3. 外卖业务DLRM范式迭代路径

经典的推荐系统模型可以针对需要预估的用户-商品对,根据处理信息不同,可以把模型拆解成三个部分,User module(编码用户的历史行为序列等信息),Item module(编码候选商家的信息)以及Cross module(同时编码用户和候选的交叉信息)。根据Scaling模块的不同,我们可以简单的将过去的迭代划分为Scaling cross module(图1a)以及Scaling user module(图1b)前后两个不同阶段。此外,Item module由于一般包含信息比较简单,不作为scale up的对象。

然而,在过去的迭代中,无论是Scaling Cross Module还是Scaling User Module,仍存在以下两个显著缺点:1)Scaling依赖于采用MLP捕捉不同特征之间的共现关系,注意力机制使用相对较少,在深度学习的其他领域中,注意力机制对比MLP往往更加有效。2)无论是何种Scaling方案,在训练阶段都存在较大的资源成本,且优化空间较小。Meta所提出的GR方案较好的解决以上两个问题,在后续篇幅中,我们将沿着GR所提出的HSTU框架出发,采用混合式架构,尽可能的保留DLRM原始特征体系,在美团外卖业务中展开落地。

4. 外卖业务生成式推荐落地实践

4.1 MTGR模型框架

我们所提出的MTGR整体框架如图2所示,通过MTGR,我们将这些信息编码成自然语言中的Token,然后利用HSTU架构进行建模。在这个过程中,我们:

    保留全部DLRM原始特征,并针对样本进行无损压缩,同时建设稀疏化存储以及计算框架将padding导致的冗余计算降低至0。利用Group LayerNorm以及动态混合掩码策略,实现用统一的HSTU架构针对不同语义空间的Token信息进行编码。我们设计了三种不同尺寸的模型(MTGR-small、MTGR-middle、MTGR-large),验证了离在线效果的Scaling Law,并使用MTGR-large在美团核心业务中取得显著受益,并完成全量。

下面,我们将对MTGR的数据、特征以及模型架构逐一展开介绍。

4.1.1 数据&特征

在数据与特征上,我们首先对齐DLRM的特征,保留了全部的交叉特征以减少信息损失,其次针对训练数据按用户粒度实施压缩来实现MTGR高效训练,具体的:

对齐DLRM的特征使用策略:在我们的场景下,如表1结果所示,采用生成式方案完全抛弃交叉特征会极大的损害MTGR模型性能,为了尽可能的减少信息损失,我们所使用的特征与DLRM基本一致,这些特征包括:

4.1.2 模型架构

在模型架构上,我们首先将输入信息Token化,再针对不同类型Token进行Group LayerNorm,并设计了一种特殊的动态混合掩码策略,以实现用统一的HSTU架构针对不同序列、用户信息、Target信息进行统一编码。具体的:

表3展示了采用动态混合掩码对比传统因果掩码的离线效果,采用动态混合掩码可以更好的发挥HSTU作为encoder的学习能力。

4.2 MTGR训推引擎

相比传统DLRM模型,GR模型的训练和推理面临严峻挑战:

为了解决上述问题,我们建设了MTGR模型训推引擎,解决模型计算量和存储量激增带来的诸多性能挑战。包含两个核心组件:

4.2.1 MTGR-Training

我们基于TorchRec构建了简单易用、高性能、可扩展的GR模型训练引擎MTGR-Training,可支持千亿参数、100GFLOPs/example甚至更大计算量的模型的高效分布式训练。

如图5所示,系统框架分成三层:

MTGR-Training具体的功能支持和性能优化工作总结如下表4所示:

下面重点介绍下Kernel优化和变长序列负载均衡的工作:

总的来说,得益于用户粒度的样本聚合方式使得相同用户的大部分计算可以共享,以及MTGR-Training的诸多优化,最终我们实现了GR模型的训练成本相比DLRM baseline增加很少,有效控制了训练成本。如表5所示,不采用任何序列采样策略时,65倍计算复杂度GR模型训练成本相比DLRM baseline,只增加了1倍。

4.2.2 MTGR-Inference

基于Nvidia软件生态,我们构建了高性能的GR模型推理引擎MTGR-Inference:

如图8所示,系统框架分成四层:

下面详细介绍各种优化手段:

4.3 Scaling效果

为了验证Scaling Law,我们设置了small、middle、large三种不同大小的MTGR模型与当前在线最好的DLRM base(Scaling User Module)进行对比。对于small、middle两个版本,我们序列的最大长度设置为3k;对于large版本,为了权衡训练效率,最大长度设置为1k。

当前DLRM base在线经历了超过2年的学习,水位线较高,MTGR则仅采用2024.10之后近半年的数据进行训练。表6展现了不同尺寸的MTGR模型离在线效果,尽管数据上有所劣势,MTGR离在线各个指标仍大幅超越了DLRM base。除了这三种尺寸外,我们离线阶段最大实现了深度22层,dmodeld_{model}=1024,计算复杂度达137.87GFLOPs(约160倍DLRM)的超大规模模型,并取得了更高的离线结果,但是受推理性能限制并没有进一步在线实验。

此外,在验证Scaling Law过程中,除了传统的增加深度、宽度外,我们还特别伴随不同的模型尺寸,同步增大稀疏参数的大小(调整embedding dim),该参数作为超参数存在,且针对不同尺寸的模型以及不同类型的Token分开设置,假设某一个Token由kk个特征组成,每个特征的embedding dim通常会被设置为dmodel/kd_{model}/k附近的整数。

我们基于MTGR-large在美团外卖推荐业务中完成了全量,对比之前SOTA的DLRM base,MTGR单样本前向FLOPs提升65倍,达到55.76GFLOPs,图10给出了AB test阶段MTGR-large对比DLRM订单收益曲线。

对于训练资源,采用与GR原方案一致的随机长度采样策略,优化后训练成本降低至与DLRM持平,且离在线效果基本无损;对于推理资源则节省12%,推理资源下降是由于对比DLRM,MTGR在推理阶段资源消耗对于候选数量不敏感,对比DLRM需要多分片推理来降低耗时,MTGR采用单分片推理即可,较好的提升了在线吞吐。

5. 总结与展望

Scaling Law已成为当下深度学习的基本准则,但是在推荐系统领域中的探索还相对较少,我们基于HSTU提出了MTGR这一新的排序框架。MTGR保留与DLRM一致的特征体系,以避免生成式架构下丢失交叉特征带来的信息损失;在序列编码方式上,我们结合Group LayerNorm以及动态混合掩码策略提升HSTU学习效果;此外,我们还针对MTGR的训练与推理框架做了针对性优化以减少资源消耗。最终,MTGR在我们的实际业务中取得了离线CTCVR GAUC + 2.88pp,首页列表订单量+1.22%,PV_CTR + 1.31%的收益;同时在资源上,训练资源持平,在线推理资源节省12%。

在未来,我们将与各部门继续展开紧密合作,针对以下方向持续进行探索:

6. 团队招聘

算法团队来自搜索和推荐平台部/外卖搜推算法组,负责外卖主站、以及神抢手和拼好饭等业务的搜索、推荐、大模型应用算法,业务核心,技术能力强,每年有多篇论文发表在KDD、SIGIR、CIKM等会议上。当前,MTGR仍在深度迭代中,机会广阔潜力大,欢迎各路英才加入,联系方式:jiangfei05@meituan.com

工程团队来自搜索和推荐平台部/机器学习引擎组,负责美团各业务的搜索推荐机器学习引擎的工程架构工作,包括模型训练,模型推理,用户特征平台建设等。团队技术能力强,工作氛围好,当前正在深度探索下一代搜推架构等多个前沿方向,欢迎感兴趣的同学加入,联系方式:yulei37@meituan.com

7. 参考文献

阅读更多

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024 年货】、【2023 年货】、【2023 年货】、【2022 年货】、【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明 "内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

美团外卖 推荐系统 MTGR Scaling Law HSTU
相关文章