2025-01-13 17:51 湖北
苹果&SpaceX前工程师Ben Hylak订阅 200 美元/月的o1 pro 后,经过一天的认真尝试,发现它很差劲:
1、每次我问一个问题,都要等 5 分钟;2、结果看到的只是一大堆自相矛盾的官样文章;3、还有未经请求的架构图 + 优缺点列表。
是o1真的不行吗?还是使用方式不对?重点来了,OpenAI CEO 山姆奥特曼转发:
o1 不是聊天模型(o1 isn’t a chat model)
它更像一个“报告生成器”。如果你给它足够的背景信息,并告诉它你想要输出什么,它通常会一次性给出解决方案。
不要写提示,而要写简介
提供大量的上下文。
o1会直接按照懒惰的问题来处理,不会试图从你那里获取上下文。相反,你需要尽可能多地向o1提供上下文。
简而言之,把o1当作新员工对待。注意o1的错误包括对其应该进行多少推理的推理。有时,方差未能准确映射到任务难度。例如,如果任务真的很简单,它往往会毫无理由地陷入推理的兔子洞。
让o1更容易获取上下文的技巧
建议使用mac/手机上的语音备忘录应用程序。只需描述整个问题空间1-2分钟,然后将转录内容粘贴进去。
出现在产品中的AI助手通常可以更容易地进行这种提取。例如,如果你使用Supabase,尝试让Supabase助手转储/描述所有相关的表/RPC等。
花 10 倍以上的时间去提示
关注目标:描述你想要什么
在大多数模型中,我们被训练成告诉模型我们想要它如何回答我们。例如,“你是一位专家软件工程师。思考要慢+仔细”。
o1成功的方法恰恰相反。我不指导它如何操作——只指导它是什么。然后让o1接管并自行规划和解决问题。这就是自主推理的作用,实际上可能比你手动审查和聊天作为“人类环节”要快得多。
了解o1擅长和不擅长的事情
o1擅长的方面
一次性生成整个/多个文件
幻觉更少
医疗诊断
解释复杂概念
生成多个计划并比较优缺点
额外奖励:评估
o1目前还不擅长的方面
以特定的声音/风格写作
构建整个应用程序
https://www.latent.space/p/o1-skill-issue
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。