孔某人的低维认知 02月28日

改错能力是这轮推理模型带来的基础能力之一

本文探讨了新一代模型在文本改错方面的卓越能力，尤其是在技术性语音对话转录结果改错场景中的表现。Claude 3.7 Sonnet Thinking的改错能力与o1正式版处于同一水平，远超R1和其他API推理模型。文本改错能力是o1-preview发布后发现的，能从STEM和编程泛化到其他领域的能力。推理模型通过Post training阶段的RL过程，强化已学知识，从而激发改错能力，这并非训练目标，而是自然泛化。期待未来更多模型在改错及其他原子能力上的突破。

✅文本改错能力是新一代模型的标志性能力之一，尤其在技术性语音对话的转录结果改错上表现突出，例如Claude 3.7 Sonnet Thinking模型。

💰 o1正式版在文本改错能力上堪称典范，但价格过高。Claude 3.7 Sonnet Thinking虽然价格有所降低，但对于文本改错而言仍然昂贵。R1模型则以其相对低廉的价格成为一种选择。

🧠 推理模型通过Post training阶段的RL过程，能够强化已学知识，并将其组合起来解决问题，满足reward。在STEM和编程场景中，改正错误是一种简单有效的工具，反思过程也是人类常用的方式。

原创孔某人 2025-02-27 16:46 北京

改错能力是新一代模型的标志性（激发出的）能力之一。

继续是一个小短文。

导言

刚刚测了下Claude 3.7 Sonnet Thinking模式在文本改错上的表现，场景是技术性语音对话的转录结果改错。

Claude 3.7 Sonnet Thinking的表现看起来跟o1正式版是同一档次，由于这两者的成本都较贵，暂时我还没有做过详细对比，不知道谁更好。但超过R1是毫无问题的。

当然R1目前还是不错的，贵在便宜。并远好于目前其他提供API的推理模型。当然我很期待Grok3的API开放，以及Qwq-max的开放。尤其是后者有望竞争R1的性价比位置。

正文

文本改错类问题是在o1-preview发布的一个月之后，我自己发现的第一个能从STEM和编程泛化到其他领域的能力。很明显OpenAI应该没有针对这类问题训练过o1-preview，但它的表现真的明显超过过去其他模型。

而这类的文本改错能力在非推理模型上明显表现不佳，即使是效果在现在看来不太好的Qwq-32b-preview，都能够超过Claude 3.5 Sonnet。

o1-preview只是o1正式版的一个早期检查点，o1正式版的文本改错能力堪称典范，直到目前也是如此。阻碍它使用的只有它的超高的价格。目前Claude 3.7 Sonnet Thinking已经把它的价格压到了一个（在海外）合理的水平，但对于文本改错来说，仍然是挺贵的。

过去我一直对推理模型能够泛化到改错场景缺乏一个整体性的认知，但到现在我觉得我想清楚了。

如何理解？

Post training阶段的RL过程是一个让LLM能够强化已经学到的知识中能够组合起来解决问题（满足reward）的过程。在很多偏STEM和编程的场景中，改正context和思考过程中的错误是一个简单有效的工具。而反思过程也是人类大量使用的方式之一。

所以这个改错能力在各种现在常用的RL的优化目标中大多都能被激发出来（强化）。

而文本改错场景是该能力的一个自然泛化，并非训练过程中的目标或任务。

我不知道是否还有其他这类的原子能力是（目前的）推理模型大多会激发出来的。

相关阅读

QwQ在实际workflow中的初步评估，及与o1模型的比较 2024.11

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请加微信，联系方式请点击 -> 联系方式。

本文于2025.2.27首发于微信公众号和知乎，知乎链接：

https://zhuanlan.zhihu.com/p/26826721676

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

文本改错推理模型 RL Claude 3.7 Sonnet o1正式版

相关文章

格隆汇8月27日｜据The Information：OpenAI加速推出“草莓”推理人工智能模型，以推动聊天机器人业务。两名参与这项工作的人士称，目标是最早在今年秋天推出该模...

据The Information报道，OpenAI正加速推出代号为“草莓”的新推理人工智能模型，旨在推动其聊天机器人业务的发展。消息人士透露，OpenAI计划最早在今年秋天发布...

OpenAI计划在秋季推出“草莓”大模型据The Information：OpenAI加速推出“草莓”推理人工智能模型，以推动聊天机器人业务。两名参与这项工作的人士称，目标是最...

OpenAI加速推出“草莓”推理人工智能模型

OpenAI releases o1, its first model with ‘reasoning’ abilities

OpenAI o1 传说中的strawberry终于来了

OpenAI o1草莓模型：AI安全了，但看起来AI大模型公司更危险了

OpenAI放大招！发布最强水平大模型，解决博士生级别科学问题

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

如何看待 Open AI 发布草莓模型 OpenAI o1，大模型已经达到人类博士水平了吗？