PaperWeekly 18小时前
AI也怕压力大?REST多题评测挑战推理极限,DeepSeek性能暴跌近30%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

研究团队提出了REST(Reasoning Evaluation through Simultaneous Testing)框架,模拟真实世界多任务并行推理场景,对大模型进行“压力测试”。实验发现,即使是DeepSeek-R1等顶级模型,在REST框架下性能也出现显著下降,准确率骤降近30%,暴露出当前评测方法区分度低、脱离现实等痛点。REST框架通过将多个问题整合到单个prompt中,有效考察了模型的上下文预算分配、跨问题干扰抵抗和动态认知负载管理能力。研究还发现,“long2short”技术有助于模型在高压下保持性能,而“自适应推理努力分配”是实现稳健性能的关键。REST为大模型评测提供了更低成本、更贴近真实的解决方案。

💡 **REST框架挑战传统AI评测模式**:为解决当前大模型评测中区分度低、成本高昂和脱离现实的问题,研究团队设计了REST(Reasoning Evaluation through Simultaneous Testing)框架。该框架通过将多个问题整合到一个长prompt中,模拟真实世界中模型需要同时处理复杂、多任务推理场景,从而对大模型进行“压力测试”,以更全面地评估其真实能力。

📉 **SOTA模型在高压下性能显著下降**:通过REST框架对包括DeepSeek-R1在内的30多个主流推理模型进行测试,结果显示,即使是最先进的模型,在面对多问题并行推理时,性能也大幅缩水。例如,DeepSeek-R1在AIME24测试集上的准确率下降了29.1%,这揭示了当前模型在单任务性能上可能存在的“伪高分”现象,以及它们在应对复杂真实场景时的脆弱性。

🚀 **“long2short”技术与自适应推理是关键**:研究发现,“long2short”技术,即鼓励模型缩短推理过程,能够有效帮助模型在高压下保持更优异的性能,甚至在某些情况下领先于更大型的模型。此外,表现优异的模型倾向于进行“自适应推理努力分配”,即根据压力动态调整推理预算,为后续问题留出空间,这被认为是实现稳健性能的关键因素。

🔍 **揭示被忽视的推理能力与评测局限**:REST框架不仅考察了模型的基础推理能力,更深入评估了模型在多任务场景下的上下文预算分配、跨问题干扰抵抗以及动态认知负载管理等能力。同时,该框架还揭示了模型在单问题评估中不易显现的推理不良行为,如问题遗漏和对推理过程总结错误,从而指出了当前评测方法的局限性。

让你更懂AI的 2025-07-24 21:36 北京

不给喘息机会!

给 AI 一场压力测试,结果性能暴跌近 30%。

来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST(Reasoning Evaluation through Simultaneous Testing)

该框架在一个 prompt 里同时抛给模型多个问题,模拟真实世界中复杂的、多任务并行的推理场景。

结果发现,即便是像 DeepSeek-R1 这样的顶级模型,在“高压”之下的表现也大幅缩水,例如,在 AIME24 测试集上的准确率骤降 29.1%

论文地址:

https://arxiv.org/abs/2507.10541

项目地址:

https://opendatalab.github.io/REST

代码仓库:

https://github.com/opendatalab/REST


给大模型来一场“压力测试”

如今的大模型在各种推理能力测试中动辄拿下接近满分的成绩。

如果让模型一次做好几道题,它还会那么“神”吗?

团队认为,当前大模型的评测模式普遍存在三大痛点:

区分度低:在许多基准测试中,顶尖模型的得分已趋于饱和,难以分出高下。例如,7B 参数的 DeepSeek-R1-Distill-Qwen-7B 和 671B 参数的 DeepSeek-R1 在 MATH500 上的准确率分别为 93.0% 和 97.0%,看似相差不大,但推理能力仍有显著区别。

成本高昂:由于现有的数学题几乎已经被纳入了大模型的训练数据。为了有效评估,社区不得不持续投入大量人力物力去开发更新、更难的测试题。但设计这样的测试题需要极高水平的人类专家,一年也出不了几个题。例如,AIME24 和 AIME25 都只有 30 道题。

脱离现实:一次只答一道题的模式,无法考察模型在真实世界中处理交叉信息,完成多重任务的综合能力。

为了解决这些问题,团队设计 REST 框架——改造现有基准,如 GSM8K、MATH500、AIME24 等 7 个代表性推理任务,不再逐题测试,而是把多个问题拼接成一个长 prompt,一次性让模型在一次输出中逐一回答

研究团队基于 GSM8K、MATH500、AIME24 等 7 个主流推理基准,构建了 REST 评测集,并对超过 30 个参数从 1.5B 到 671B 的主流推理模型进行了全面测试。

这种“压力测试”不仅考察模型基础的推理能力,更深入评估了以往被忽视的几项关键能力:

上下文预算分配:模型得聪明地决定怎么在多个题目中分配思考 Token。

跨问题干扰抵抗:避免一道题的错误“传染”到其他题。

动态认知负载管理:在高压下保持高效推理,别在一道题上陷入“过度思考”的陷阱。


SOTA模型也“扛不住”,REST拉开差距

最强模型,在多题高压下也顶不住:LRMs 可以在单个推理过程中处理多个相对简单的问题,但在 REST 下,性能皆下降。比如 DeepSeek-R1,在 AIME24 基准上,单题模式下效果拔群,但“压力测试”下准确率直降 29.1%!其他模型也类似,整体性能大打折扣。

拉开区分度,撕开“伪高分”面纱:传统单题测试中,不同大小模型得分都接近天花板,看不出谁更牛。但 REST 一上,差距立现!如下图所示,7B 参数的小模型在高压下崩得更快!而更大的 32B 参数的模型性能虽有下降但仍保持优势。

不同压力水平下,模型性能拉开明显梯度——这让 REST 成为更强的“分辨器”,帮我们精准比较模型。

“过度思考”成大坑,long2short 技术救场:为什么模型在 REST 下变差?分析显示,关键是陷入了过度思考的陷阱。就像学生考试,在一道难题上思考太久,没时间做后面的题目了。

但用 “long2short” 技术(鼓励模型缩短推理过程)训练的模型,就能更好地保留单题性能,在 REST 下领先!

如 L1Qwen-1.5B-Exact 和 L1-Qwen-1.5B-Max,在高压力水平下表现出显著的性能优势。如表 6 所示,L1-Qwen-1.5B-Max 在 MATH500 上压力水平 s=9 时,准确率比 R1-1.5B 高出 44.71% 的显著差距。7B 模型中也观察到类似的趋势。

动态分配 token,有的模型更“聪明”:REST 下,一些聪明的模型(如 Nemotron-nano-7B 和 DeepSeek-R1)会动态调整推理预算:当压力增大时,它们为第一道题分配更少的推理 token,留力后续。

但低性能模型(如 DeepS-eek-R1-Distill-Qwen-7B)往往在前面的题上用掉太多 token,导致整体崩盘。

这一观察表明,在 REST 中表现优异的 LRM 模型在压力下倾向于对早期问题进行更简洁的推理,从而为后续问题留出足够的空间。团队将这种能力称为“自适应推理努力分配”,认为这是在 REST 下实现稳健性能的关键因素。

此外,REST 还揭示了一些推理不良行为,如问题遗漏和对推理过程总结错误,这些问题在单问题评估中未被发现。

总而言之,REST 不是简单加题,而是给大模型来场“压力测试”,挑战了 “LLMs 是多问题解决者”的普遍假设,揭示了当前评测方法的局限性,提供了一种更低成本、更贴近真实的评测数据构建新范式,为未来开发更健壮和强大的 LRMs 提供了更加深刻的见解。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 压力测试 大模型评测 REST框架 推理能力
相关文章