原创孔某人 2025-01-13 20:24 北京

o1不擅长向用户提问

原文链接

https://www.latent.space/p/o1-skill-issue

1、原文内容简介

虽然标题具有一定的话题性，观点也算新颖，但这篇文章的阅读体验并不好，重点不多。这里截取一些我认为值得看的观点：

目前对于o1的使用体验是两极分化的，这可能与使用方式有关。

原作者在使用o1的时候遇到了不少明显自相矛盾的结果。（孔某人按：但这一点，我和不少其他人并未遇到）

o1不倾向于向用户提问，如果用户仅仅给了很简单的信息，o1可能会在大量思考之后给一个无用的输出。

所以在使用o1时候，应该自己主动注入尽可能多的上下文。（孔某人按：也就是我之前在文章中提到的Context）

所以o1其实不是一个好的Chat model（相对于Claude），而更像是一个报告生成器，或者是一个靠发邮件与你进行通讯的助手。（孔某人按：在使用中我也没觉得其他模型有很强的反问能力）

如果能在prompt中提供如何衡量结果好坏的标准，那么会更好。也就是要清楚你自己想要什么。

o1的优点：能处理大量上下文，幻觉更少，医学诊断/概念解释/评估等场景表现更好。

o1的缺点：控制写作风格较难，它倾向于遵循一种非常学术/公司报告的风格。

2、我的评论

从上述使用体验来说，我觉得他（那篇文章的作者）确实使用o1的经验不少，应该比我多。

我现在把o1当作默认使用模型，其实并没有感觉他说的那些问题，至少没有强到会刺痛我。不过我个人确实不太常使用多轮对话这种方式。我经常喜欢编辑自己之前的某个消息，补充信息和要求，让其重新生成回答。

他发现了2个主要问题：第一，o1不倾向于向用户提问；第二，回答风格太过趋向于正式报告。后者好坏因人而异，而前者确实能够支撑他标题的观点，o1在与人互动上还不太好。

我认为这两个问题都是o1新增的训练数据占比过高导致模型在这方面行为过强，确实是需要分别优化的，这很值得模型层的同学注意。

我个人一直倾向于“先思考，再措辞”的两阶段流程，所以回答文风方面我觉得倒不是问题。我最近一个月觉得：未经思考（阶段）的LLM结果不值得给人看。可能未经措辞润色（环节）的内容也不值得在某些场景下发给用户吧。

何时该向用户提问确实是一个很难平衡的问题。用户是懒的，很难一次给足够的信息，但用户也讨厌被连续追问。可能一个好的方式是给一个“讨论互动”滑块来控制反问的倾向。跟科幻电影中的机器人设定的“幽默度”选项其实很类似，而且这个幽默度滑块我们现在应该就需要了，不知道哪家LLM chatbot会首先引入。

A、结语

其实《o1 isn’t a chat model》这篇文章的内容有点少，有点不值得我来写它。在补充了我的观点之后，也仍然不算长。但考虑到这是目前少有的对于如何使用o1的讨论，还是发一下吧。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，获取联系方式请点击 -> 联系方式。

本文于2025.1.13首发于微信公众号

阅读原文

跳转微信打开

1、原文内容简介

2、我的评论

A、结语

交流与合作

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签