孔某人的低维认知 02月28日
改错能力是这轮推理模型带来的基础能力之一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了新一代模型在文本改错方面的卓越能力,尤其是在技术性语音对话转录结果改错场景中的表现。Claude 3.7 Sonnet Thinking的改错能力与o1正式版处于同一水平,远超R1和其他API推理模型。文本改错能力是o1-preview发布后发现的,能从STEM和编程泛化到其他领域的能力。推理模型通过Post training阶段的RL过程,强化已学知识,从而激发改错能力,这并非训练目标,而是自然泛化。期待未来更多模型在改错及其他原子能力上的突破。

✅文本改错能力是新一代模型的标志性能力之一,尤其在技术性语音对话的转录结果改错上表现突出,例如Claude 3.7 Sonnet Thinking模型。

💰 o1正式版在文本改错能力上堪称典范,但价格过高。Claude 3.7 Sonnet Thinking虽然价格有所降低,但对于文本改错而言仍然昂贵。R1模型则以其相对低廉的价格成为一种选择。

🧠 推理模型通过Post training阶段的RL过程,能够强化已学知识,并将其组合起来解决问题,满足reward。在STEM和编程场景中,改正错误是一种简单有效的工具,反思过程也是人类常用的方式。

原创 孔某人 2025-02-27 16:46 北京

改错能力是新一代模型的标志性(激发出的)能力之一。

继续是一个小短文。

导言

刚刚测了下Claude 3.7 Sonnet Thinking模式在文本改错上的表现,场景是技术性语音对话的转录结果改错。

Claude 3.7 Sonnet Thinking的表现看起来跟o1正式版是同一档次,由于这两者的成本都较贵,暂时我还没有做过详细对比,不知道谁更好。但超过R1是毫无问题的。

当然R1目前还是不错的,贵在便宜。并远好于目前其他提供API的推理模型。当然我很期待Grok3的API开放,以及Qwq-max的开放。尤其是后者有望竞争R1的性价比位置。

正文

文本改错类问题是在o1-preview发布的一个月之后,我自己发现的第一个能从STEM和编程泛化到其他领域的能力。很明显OpenAI应该没有针对这类问题训练过o1-preview,但它的表现真的明显超过过去其他模型。

而这类的文本改错能力在非推理模型上明显表现不佳,即使是效果在现在看来不太好的Qwq-32b-preview,都能够超过Claude 3.5 Sonnet。

o1-preview只是o1正式版的一个早期检查点,o1正式版的文本改错能力堪称典范,直到目前也是如此。阻碍它使用的只有它的超高的价格。目前Claude 3.7 Sonnet Thinking已经把它的价格压到了一个(在海外)合理的水平,但对于文本改错来说,仍然是挺贵的。

过去我一直对推理模型能够泛化到改错场景缺乏一个整体性的认知,但到现在我觉得我想清楚了。

如何理解?

Post training阶段的RL过程是一个让LLM能够强化已经学到的知识中能够组合起来解决问题(满足reward)的过程。在很多偏STEM和编程的场景中,改正context和思考过程中的错误是一个简单有效的工具。而反思过程也是人类大量使用的方式之一。

所以这个改错能力在各种现在常用的RL的优化目标中大多都能被激发出来(强化)。

而文本改错场景是该能力的一个自然泛化,并非训练过程中的目标或任务。

我不知道是否还有其他这类的原子能力是(目前的)推理模型大多会激发出来的。

相关阅读

QwQ在实际workflow中的初步评估,及与o1模型的比较 2024.11


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式

本文于2025.2.27首发于微信公众号和知乎,知乎链接:

https://zhuanlan.zhihu.com/p/26826721676

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

文本改错 推理模型 RL Claude 3.7 Sonnet o1正式版
相关文章