机器之心 4小时前
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

随着大模型推理能力和思维链的普及,其“深度思考”能力得到提升,但也导致了在处理简单任务时出现“过度思考”的现象。AI领域专家Andrej Karpathy指出,大模型默认状态下越来越倾向于“自主代理”模式,即使在编码等复杂任务中,也常表现为冗长的推理、过度的文件搜索和对边缘情况的细致分析。这种“超深度思考”模式在简单查询和日常使用中也显现出负面效应,用户不得不频繁打断并限制模型行为。GPT-5的集成模型设计未能完全解决此问题,有时反而因“深度思考”导致任务延迟。文章认为,这种现象可能源于大模型在长周期任务上的基准测试优化,导致模型倾向于将所有任务视为高风险、需要深入分析的情境,而非根据实际需求进行判断。这提示大模型发展不应仅以基准测试分数为导向,更需平衡效率与深度。

📈 **“自主代理”倾向的普遍性:** Andrej Karpathy观察到,当前大模型在默认状态下倾向于表现出比用户日常需求更强的“自主代理”倾向。这意味着模型在执行任务时,即使是简单的指令,也可能进行冗长的推理、频繁的工具调用(如文件搜索、网络查询),并对不完整的代码或边缘情况进行过度分析,导致响应时间延长,用户体验下降。

💻 **编码任务中的负面效应:** 在编码等复杂工作流中,“过度思考”的负面效应尤为显著。模型可能花费大量时间在代码库中搜索、反复进行网络查询,对开发中不常见的边缘情况进行过度设计和分析。这种冗长的推理过程,即使在检查简单的索引错误等基础任务时也未能避免,迫使用户不得不手动打断模型并限制其思考范围。

💡 **GPT-5与“深度思考”的挑战:** 即使是像GPT-5这样强调集成和自主判断模型,也未能完全摆脱“过度思考”的困扰。例如,在图像编辑任务中,模型可能在执行具体操作前进行长达数十秒的“深度思考”,未能有效调用图像生成功能,导致任务进程受阻,这使得用户可能怀念之前版本(如GPT-4o)的直接高效。

📊 **基准测试优化的潜在原因:** 文章推测,大模型“过度思考”的罪魁祸首可能在于其在长周期任务上的大量基准测试优化。为了在基准测试中获得更高分数,模型被训练得更倾向于执行复杂的任务规划和深度分析,从而在面对简单任务时也可能过度解读,将其视为需要高风险、长时间处理的情境,而非像人类一样根据上下文自然判断。

原创 关注大模型的 2025-08-12 11:08 北京

基准测试似乎是过度思考的罪魁祸首。

机器之心报道

编辑:冷猫

随着推理大模型和思维链的出现与普及,大模型具备了「深度思考」的能力,不同任务的泛用性得到了很大的提高。

借助思维链,大模型能够对任务进行深入分析,完成任务规划与拆解,从而胜任长周期、复杂度高的工作。同时,我们也能更直观地了解模型的推理与分析过程,从中发现执行环节中的问题,并有针对性地调整指令,以更高效地完成目标。

可以说,有了「深度思考」的推理模型,才有了现在拥有多种辅助功能与自主能力的 AI 智能体。

但现在的大模型渐渐有些偏科了。为了构建应用能力更强的智能体,对长周期的复杂任务能力的追求已经影响到了大模型的推理模式。

不知道大家在平常使用 AI 工具的时候有没有发现,打开了深度思考后,一些简单的任务也需要很多的思考,展示了非常冗长的思维链,而不打开深度思考的时候,又很难准确的得到想要的回复。

这种现象越来越明显了,尤其是当大模型进入工作流(例如编码工作)的时候,其负面效应就更加显著。

这不,AI 领域的大牛 Andrej Karpathy 也感觉到不对劲,发了长文推来指出这个令人无语的现象。


Karpathy 说,「LLM 在默认状态下正变得比我日常使用需求更具『自主代理(Agentic)』倾向,甚至有些超出了我的平均使用场景」。

最明显的的确是编码任务,模型现在往往会进行较长时间的推理,倾向于在整个代码库中列出并搜索(grep)文件,会反复进行网络搜索,对一些在开发中、且明显并不完整的代码里极少出现的边缘情况过度分析、过度思考,甚至在非常简单的查询中,也常常需要几分钟后才返回结果。

尤其是在简单的任务中,比如在运行脚本前快速检查索引错误或其他低级错误,根本不需要如此复杂的任务分析和代码处理。

因此 Karpathy 不得不经常打断 LLM,并用类似这样的指令限制它:「停,你想得太多了。只看这一份文件。不要用任何工具。不要过度设计。

这带来了很多麻烦,不仅是在编码任务,我们发现日常使用 LLM 工具时候的类似打断情况也越来越多了。

简单拿刚发布几天的 GPT-5 举个例子,发布时 OpenAI 显然意识到深度思考的问题,所以他们强调 GPT-5 是一个集成模型,也就是说,你用它的时候不需要在不同模型之间切换,它会自己决定何时需要深入思考。

但这个问题显然没有这么简单。记得当时 GPT-4o 模型的图像编辑生成功能很好用,但在更新到新模型后就不太一样了。

我们给了 GPT-5 这个指令:「去除图中文字,把这张图变得高清一些,机器人的脸看起来更温和一些」,希望它能够调用图像编辑的功能。

但结果它就开始进行「深度思考」了:

经过了 38 秒的思考,它考虑了很多细节,但仍然未能开始使用图像生成功能,导致不得不打断它的任务进程。

或许这也是用户们无比怀念 GPT-4o 的原因之一。

正如 Karpathy 指出的,随着默认模式逐渐向这种「超深度思考」的高代理化状态靠拢,我们反而更需要一个相反的选项 —— 一种更直接有效的方式去表达或传达我的意图和任务的紧迫程度,从「快速看一眼」到「花 30 分钟彻底确认后再回来」都能精确指定。

网友们也苦「过度思考」久矣,甚至为此回到了最朴素的使用方法。

对于这件事,Karpathy觉得罪魁祸首似乎是大模型「在长周期任务上进行了大量基准测试优化」,为了在基准测试上得到更好的成绩,LLM的思考就更倾向于长周期的复杂任务的实现,因此影响了普通任务的响应。

他指出了两种情境:

1. 我招呼同事过来看我屏幕上打开的一个文件,问他「这样对吗?」

2. 我让某人坐在桌前,他们有 2 个小时来作答。这是一场考试, 风险很高。题目是「这样对吗?」

人类协作者能很自然地区分情境 1 和情境 2。但 LLM 并不知道你问的是 1 还是 2,而随着时间推移、基准测试的不断「极限化」,它会越来越倾向于假设你问的是情境 2。

这指出了大模型过度思考,复杂化任务的可能原因,大模型的发展不能完全以基准测试分数作为追求。

关于大模型的「过度思考」,有相关经历和想法欢迎在评论区分享。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 深度思考 自主代理 基准测试 AI效率
相关文章