原创 孔某人 2025-02-27 16:46 北京
改错能力是新一代模型的标志性(激发出的)能力之一。
继续是一个小短文。
导言
刚刚测了下Claude 3.7 Sonnet Thinking模式在文本改错上的表现,场景是技术性语音对话的转录结果改错。
Claude 3.7 Sonnet Thinking的表现看起来跟o1正式版是同一档次,由于这两者的成本都较贵,暂时我还没有做过详细对比,不知道谁更好。但超过R1是毫无问题的。
当然R1目前还是不错的,贵在便宜。并远好于目前其他提供API的推理模型。当然我很期待Grok3的API开放,以及Qwq-max的开放。尤其是后者有望竞争R1的性价比位置。
正文
文本改错类问题是在o1-preview发布的一个月之后,我自己发现的第一个能从STEM和编程泛化到其他领域的能力。很明显OpenAI应该没有针对这类问题训练过o1-preview,但它的表现真的明显超过过去其他模型。
而这类的文本改错能力在非推理模型上明显表现不佳,即使是效果在现在看来不太好的Qwq-32b-preview,都能够超过Claude 3.5 Sonnet。
o1-preview只是o1正式版的一个早期检查点,o1正式版的文本改错能力堪称典范,直到目前也是如此。阻碍它使用的只有它的超高的价格。目前Claude 3.7 Sonnet Thinking已经把它的价格压到了一个(在海外)合理的水平,但对于文本改错来说,仍然是挺贵的。
过去我一直对推理模型能够泛化到改错场景缺乏一个整体性的认知,但到现在我觉得我想清楚了。
如何理解?
Post training阶段的RL过程是一个让LLM能够强化已经学到的知识中能够组合起来解决问题(满足reward)的过程。在很多偏STEM和编程的场景中,改正context和思考过程中的错误是一个简单有效的工具。而反思过程也是人类大量使用的方式之一。
所以这个改错能力在各种现在常用的RL的优化目标中大多都能被激发出来(强化)。
而文本改错场景是该能力的一个自然泛化,并非训练过程中的目标或任务。
我不知道是否还有其他这类的原子能力是(目前的)推理模型大多会激发出来的。
相关阅读
QwQ在实际workflow中的初步评估,及与o1模型的比较 2024.11
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式。
本文于2025.2.27首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/26826721676