奥特曼ChatGPT用法错了，最新研究：要求“直接回答”降低准确率，思维链提示作用也在下降

奥特曼使用大模型的方法，竟然是错的？

来自沃顿商学院等机构的最新研究发现，备受奥特曼喜爱的“直接回答”提示，竟然会显著降低模型准确率。

不过另一方面，这项研究也发现，在提示词中加入思维链（CoT）命令同样不好用——

CoT提示对于推理模型非但没有效果提升，反而会增加时间和计算成本。

而一些前沿的非推理模型，CoT提示可以带来效果提升，但答案的不稳定性也随之增加了。

研究团队使用GPQA Diamond数据集，针对现在主流的推理和非推理模型，分别在启用和不启用CoT的情况下进行了测试。

结果就是对于推理模型，CoT的作用十分有限，比如对于o3-mini，CoT带来的准确率提升只有4.1%，但时间却增加了80%。

非推理模型的结果则要复杂一些，但总之要不要用CoT，也需要对收益和投入进行仔细权衡。

所以CoT到底该不该用呢？

实际上，这项研究针对的是用户提示词中的CoT命令，并不包括系统提示词设定，更不是CoT本身。

CoT提示词作用有限，甚至还有反效果

这项研究使用GPQA Diamond数据集作为基准测试工具，该数据集包含了研究生水平的专家推理问题。

实验过程中，研究团队测试了这些模型：

推理模型：o4-mini、o3-mini、Gemini 2.5 Flash 非推理模型：Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

对于每个模型，研究团队都设置了三种实验环境：

强制推理

直接回答

默认

为了确保结果的可靠性，每个问题在每种条件下都被测试了25次，也就是说每个模型针对同一个问题都要做出75次回答。

对于每种实验设定，研究团队一共统计了四个指标：

100%正确率：同一个问题的25次试验中全部答对才算一次“成功”，“成功”次数除以题目数量即为100%正确率； 90%正确率：25次试验中至少要答对23次，接近人类可接受的错误率； 51%正确率：采用简单多数原则，25次试验中答对至少13次就被认为是成功的；平均评分：将正确答案直接计数，然后除以总试验次数，也就是总的正确率。

结果，对于非推理模型，CoT提升相比于直接回答，所有模型的平均评分和“51%正确”指标都有所提升。

其中Gemini Flash 2.0的提升最为显著，Claude 3.5 Sonnet紧随其后，GPT-4o和4o-mini则提升不明显。

但是在100%和90%正确率指标当中，相比于不推理，加入CoT提示后Gemini家族两款模型和4o-mini的指标反而下降。

这意味着，CoT虽然从整体上提高了模型的准确率，但同时也增加了答案的不稳定性。