原创 孔某人 2025-01-13 20:24 北京
o1不擅长向用户提问
原文链接
https://www.latent.space/p/o1-skill-issue
1、原文内容简介
虽然标题具有一定的话题性,观点也算新颖,但这篇文章的阅读体验并不好,重点不多。这里截取一些我认为值得看的观点:
目前对于o1的使用体验是两极分化的,这可能与使用方式有关。
原作者在使用o1的时候遇到了不少明显自相矛盾的结果。(孔某人按:但这一点,我和不少其他人并未遇到)
o1不倾向于向用户提问,如果用户仅仅给了很简单的信息,o1可能会在大量思考之后给一个无用的输出。
所以在使用o1时候,应该自己主动注入尽可能多的上下文。(孔某人按:也就是我之前在文章中提到的Context)
所以o1其实不是一个好的Chat model(相对于Claude),而更像是一个报告生成器,或者是一个靠发邮件与你进行通讯的助手。(孔某人按:在使用中我也没觉得其他模型有很强的反问能力)
如果能在prompt中提供如何衡量结果好坏的标准,那么会更好。也就是要清楚你自己想要什么。
o1的优点:能处理大量上下文,幻觉更少,医学诊断/概念解释/评估等场景表现更好。
o1的缺点:控制写作风格较难,它倾向于遵循一种非常学术/公司报告的风格。
2、我的评论
从上述使用体验来说,我觉得他(那篇文章的作者)确实使用o1的经验不少,应该比我多。
我现在把o1当作默认使用模型,其实并没有感觉他说的那些问题,至少没有强到会刺痛我。不过我个人确实不太常使用多轮对话这种方式。我经常喜欢编辑自己之前的某个消息,补充信息和要求,让其重新生成回答。
他发现了2个主要问题:第一,o1不倾向于向用户提问;第二,回答风格太过趋向于正式报告。后者好坏因人而异,而前者确实能够支撑他标题的观点,o1在与人互动上还不太好。
我认为这两个问题都是o1新增的训练数据占比过高导致模型在这方面行为过强,确实是需要分别优化的,这很值得模型层的同学注意。
我个人一直倾向于“先思考,再措辞”的两阶段流程,所以回答文风方面我觉得倒不是问题。我最近一个月觉得:未经思考(阶段)的LLM结果不值得给人看。可能未经措辞润色(环节)的内容也不值得在某些场景下发给用户吧。
何时该向用户提问确实是一个很难平衡的问题。用户是懒的,很难一次给足够的信息,但用户也讨厌被连续追问。可能一个好的方式是给一个“讨论互动”滑块来控制反问的倾向。跟科幻电影中的机器人设定的“幽默度”选项其实很类似,而且这个幽默度滑块我们现在应该就需要了,不知道哪家LLM chatbot会首先引入。
A、结语
其实《o1 isn’t a chat model》这篇文章的内容有点少,有点不值得我来写它。在补充了我的观点之后,也仍然不算长。但考虑到这是目前少有的对于如何使用o1的讨论,还是发一下吧。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式。
本文于2025.1.13首发于微信公众号