机器之心 04月05日
三思而后行,让大模型推理更强的秘密是「THINK TWICE」?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项名为“Think Twice”的研究提出了一种创新的大模型推理优化方法。该方法无需额外训练,通过模拟人类思维中的“再思考”过程,让模型在生成初步答案后,将答案作为新的提示进行独立“重答”,从而提升推理准确性。实验表明,这种方法在多个基准测试中显著提高了主流模型的性能,并改变了模型的表达风格,使其更简洁、自信。研究强调了这种方法在模型部署阶段的实用性,并为后续研究提供了新的思路,例如结合监督微调或构建更智能的多轮判断机制。

🧠 “Think Twice”的核心在于模拟人类的“再思考”机制,通过多轮推理来纠正模型在初始推理中可能出现的错误,从而提升整体性能。

📈 该方法在AIME 2024、MATH-500、GPQA-Diamond和LiveCodeBench等多个权威数据集上进行了验证,结果显示DeepSeek-R1和QwQ-32B等主流模型均表现出显著提升,无需额外的训练或复杂的机制。

🗣️ 除了准确率的提升,研究还观察到模型在表达风格上的变化,例如不确定性词汇的使用频率降低,表达更加简洁、自信,这使得模型在回答问题时更像人类。

💡 该方法的一个关键优势在于其即插即用性,完全作用于推理阶段,无需额外的训练资源,这使得它在模型部署阶段具有高度实用性,并为未来的研究提供了可扩展的思路。

2025-04-05 12:11 四川

鼓励大模型主动“反思”,用多轮推理激发更强的认知能力。


近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。OpenAI 的 o1 系列与 DeepSeek 的 R1 模型已展示出显著的推理能力提升。然而,在实现高性能的同时,复杂的训练策略、冗长的提示工程和对外部评分系统的依赖仍是现实挑战。


近日,由 a-m-team 团队提出的一项新研究提出了一个更简洁直观的思路:三思而后行(Think Twice)。它不依赖新的训练,不引入复杂机制,仅通过一种非常人类式的思维策略 ——“再想一轮”—— 在多个基准任务中带来显著性能提升。




“Multi-round Thinking”

一轮不够,那就两轮、三轮



该方法的核心思想类似于人类在做题时的反思机制:模型先基于原始问题生成第一次答案,再将该答案(而非推理过程)作为新的提示,促使模型独立 “重答” 一次,并在每一轮中不断修正先前的偏误。


这个过程中,模型不会受限于上一次的推理轨迹,而是以一个「结果驱动」的方式自我反思与纠错,逐步逼近更合理的答案。研究人员指出,这种策略有效缓解了大模型推理中常见的 “认知惯性”,即模型过度依赖初始推理路径而难以跳脱错误逻辑。


不靠训练,也能提升多个基准性能


研究团队在四个权威数据集上验证了该方法,包括:




在不改变模型结构、无额外训练的前提下,DeepSeek-R1 和 QwQ-32B 等主流模型在所有测试集上均表现出不同程度的提升。例如:



更值得注意的是,在进行 2 轮、3 轮甚至 4 轮的 “再思考” 后,准确率稳步上升,模型表现出更强的稳定性和反思能力。


更短的答案、更少的犹豫

模型开始 “自信发言”


除了准确率的提升,研究团队还观察到了语言风格的变化。通过分析模型生成内容中 “but”、“wait”、“maybe”、“therefore” 等语气词的使用频率,他们发现:



这种变化表明,多轮推理不仅提升了结果准确性,也改变了模型的表达风格,使其在回答时更加 “像人类”,且逻辑清晰。


不同推理路径中平均词频的变化。每个子图展示了四个具有代表性的词语 —— “but”(但是)、“wait”(等等)、“maybe”(也许)和 “therefore”(因此)—— 在第 1 轮与第 2 轮中的平均词频,对回答类型进行分组:I-C(错误 → 正确)、I-I(错误 → 错误)、C-C(正确 → 正确)和 C-I(正确 → 错误)。


多做题同时多思考

可能是更好路径


这项研究的一个关键优势在于:它完全作用于推理阶段,不需要额外的训练资源,即插即用。这种方法对于模型部署阶段的优化具有高度实用性,同时也为后续研究提供了可拓展的思路 —— 如何结合监督微调,或构建更智能的多轮判断机制。


目前研究团队已尝试使用基于多轮推理结果的监督微调数据对模型进一步训练,初步结果显示尚未显著突破,但为 “训练 + 推理” 的结合方向奠定了基础。


结语


“Think Twice” 展示了一种简单有效的思路:鼓励大模型主动 “反思”,用多轮推理激发更强的认知能力。它不仅提升了准确率,更令模型在语言表达上变得更加理性、紧凑、自信。


在训练成本不断攀升的今天,这种无需再训练的 “轻量级优化” 无疑具有极强的现实吸引力。未来,多轮推理或许能成为一种标准机制,帮助模型更接近真正意义上的 “会思考”。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 推理 Think Twice 多轮推理 Test-time scaling
相关文章