新智元 01月19日
o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文讲述了Ben Hylak从最初对o1的质疑到掌握其使用技巧,最终将其转化为解决重要问题的实用工具的过程。文章强调o1并非聊天模型,而是一个强大的“报告生成器”。要充分利用o1,需要提供海量的上下文信息,详细说明尝试过的方法及失败原因,并清晰阐明期望的输出成果。与聊天模型不同,o1不会主动获取上下文,因此用户需尽可能详细地描述问题。通过聚焦“要什么”而非“怎么做”,可以充分发挥o1的自主推理能力,生成准确且高效的解决方案。虽然o1在特定语气写作和构建完整应用方面存在不足,但它在一次性生成文件、减少幻觉、医学诊断和概念解释等方面的表现卓越。

💡o1并非聊天模型,而是一个“报告生成器”,它更擅长基于详尽的上下文信息生成报告和分析结果。

📚使用o1的关键在于提供海量的上下文信息,包括详细的问题描述、尝试过的方法、失败原因以及相关的背景资料,应像对待新入职员工一样详细说明。

🎯使用o1时,应该聚焦于“要什么”,而不是“怎么做”。清晰阐述期望的最终输出成果,让o1自行规划并解决后续步骤,充分发挥其自主推理能力。

✅o1的优势在于一次性生成单个或多个文件,减少幻觉,擅长医学诊断和解释复杂概念,同时具备评估生成结果的潜力。

⚠️o1在特定语气/风格写作方面表现欠佳,且无法直接构建完整的SaaS应用,需要反复调整。但它能一次性生成完整的前端或简单的后端功能模块。

新智元 2025-01-19 12:40 北京



  新智元报道  

编辑:英智

【新智元导读】Ben Hylak从最初对o1不满到逐渐掌握使用技巧,成功将其转化为解决重要问题的得力工具。本文探讨了如何正确使用o1,解锁其强大的报告生成和推理分析能力。


「我是如何从讨厌o1到每天用它来解决我最重要的问题的?

我学会了如何正确使用它。

Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。

起初,Ben Hylak对o1满是质疑,如今却成为了o1的活跃用户。

o1不是一个聊天模型,这正是关键所在。

o1 pro刚宣布推出,Ben就果断订阅了。毕竟,只要它每月能顶替1-2个工程师的工作量,这每月200美元的订阅费就花得值。

然而,经过一整天认真的试用,Ben得出结论:这模型简直太糟糕了。

每次提出问题,Ben都得等上5分钟,结果等来的却是一堆前后矛盾的废话,还莫名其妙地附上架构图和优劣势分析列表。

Ben把吐槽放到了网上,不少人表示赞同,但也有一些人强烈反对。这些观点来自行业一线的专业人士,有人对o1 pro的表现大为惊叹。

Ben渐渐意识到自己完全弄错了,他一直把o1当成聊天模型来用,可o1压根就不是聊天模型。

如果o1不是聊天模型,那它究竟是什么?

它更像是一个「报告生成器」。

只要你能提供充足的上下文信息,并且清晰地阐明所需的输出内容,它通常能完美解决问题。

提供充足的背景信息

提供海量的上下文信息。无论你认为「海量」是多少,在此基础上乘以10倍。

当使用诸如Claude 3.5 Sonnet或4o这类聊天模型时,一般是从一个简单问题和一些上下文信息入手。如果模型还需要更多上下文,它往往会向你提问。

聊天模型正是通过互动的方式从你那里获取更多上下文。

o1只会按照你问题的字面意思作答,不会主动从你这里获取上下文信息。

所以,你得尽可能多地向o1提供上下文。

哪怕只是问一个简单的工程问题,也请做好以下这些:

简单来讲,就把o1当成新入职的员工来对待。

为o1提供上下文的简单技巧:用Mac或手机上的语音备忘录,直接通过语音对整个问题场景进行描述,时长在1-2分钟,把转录的文本粘贴进去。

聚焦「要什么」而非「怎么做」

给o1提供尽可能多的背景信息后,关键是讲清楚你期望的最终输出成果。

我们习惯告诉模型怎么回答,如请以资深软件工程师的身份,仔细思考后作答。

但o1的使用方法不一样。别告诉o1该怎么做,只说要什么,然后让o1自己来,它会规划并解决后续步骤。

这能充分发挥o1的自主推理能力,实际运行效率或许比手动审核、对话沟通的方式更高。

你必须清楚具体需求,比如,是想让o1实现某个特定架构,还是创建一个最小化的测试应用。

o1第一次就能生成正确答案的能力着实令人惊叹。除了成本和延迟,o1在几乎所有其他方面都更为出色。

o1的优势与不足

o1的优势

一次性生成单个或多个文件:只需粘贴大量代码以及与正在构建内容相关的上下文信息,它就能一次性完成整个文件(甚至多个文件)的生成。生成的内容几乎没有错误,并且会严格遵循代码库中已有的模式。

较少出现幻觉:总体而言,o1在理解问题时似乎很少产生混淆。

医学诊断:对于医学专业人士而言,o1通常能给出与正确答案极为接近的诊断。

解释概念:o1在阐释极为复杂的工程概念方面表现卓越。

评估:o1展现出了作为评估工具的潜力,它经常能在上下文信息有限的情况下,判断生成结果是否正确。

o1尚未实现

特定语气/风格的写作:o1在写作方面的表现欠佳,特别是在模仿特定语气或风格时。它自带一种浓厚的学术/公司报告风格,而且始终如此。这可能是因为大量的推理token将语气导向了这个方向。

构建完整的应用:o1一次性生成单个或多个文件的能力很强,但它无法直接构建完整的SaaS应用,至少需要大量反复调整。不过,它基本上能一次性生成完整的前端功能模块,或简单的后端功能模块。

网友评论:o1/pro是我用过的第一个可以很好地完成高级软件架构的模型!

参考资料:

https://www.latent.space/p/o1-skill-issue

https://x.com/daniel_mac8/status/1878423666309902404





阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

o1 报告生成器 上下文信息 自主推理 AI工具
相关文章