原创 歸藏的 AI 工具箱 2025-02-16 12:18 北京
Open AI 居然更新了他们的推理模型使用指南,作为推理模型的开创者和最强推理模型的持有者,毫无疑问他们是最了解推理模型的人。
今天发现 Open AI 居然更新了他们的推理模型使用指南,作为推理模型的开创者和最强推理模型的持有者,毫无疑问他们是最了解推理模型的人。
而且这个指南不止对Open AI自己的o系列有用,而且大概率也适用于其他的推理模型,比如Deepseek R1和Gemini 2 Flash Thinking等。
Deepseek爆火的的这段时间一堆所谓的Deepseek基础一文读懂和精通Deepseek PDF文档流传,点开一看里面全是提示词案例,而且还是非推理模型的提示词案例,真的很离谱。
看这些不如看看Open AI的新文档,简明扼要的介绍了:
推理模型和非推理模型的区别
什么时候应该使用推理模型
使用推理模型的时候应该如何写提示词
太长不看:什么时候使用推理模型
处理模糊任务:推理模型特别擅长处理有限信息或零散信息
大海捞针:推理模型非常擅长理解并只提取出最相关的信息来回答问题
在大型数据集中发现关系和细微差别
多步骤Agents的规划
视觉推理任务(Deepseek不是多模态无法完成这个):结构模糊的图表和表格,或图像质量较差的照片
审查、调试和改进代码质量
评估和基准测试其他模型响应
🍞
太长不看:使用推理模型如何写提示词
最新版o1推理模型开始支持开发者消息而非系统消息(Deepseek忽略这个)
保持提示简单直接,应该发出简短、清晰的指令
避免思维链提示,不要指导模型逐步思考和给出思考步骤
使用分隔符以提高清晰度,比如Markdown和XML标签标识提示词各部分
优先尝试零样本提示,需要时再使用少样本(样本这里指给模型举例)
提供具体指导,明确限制模型的响应结果
明确说明最终目标,尽量为成功的响应提供非常具体的参数
Markdown格式,o1新版将避免使用Markdown格式响应,如果你需要的话得加参数(Deepseek忽略)
注意:以下所有的o系列模型你可以代入Deepseek R1,GPT系列可以带入豆包之类的没有推理过程的模型。
推理模型 VS 非推理模型
与 GPT 模型相比,o 系列模型在不同任务上表现出色,并需要不同的提示。一个模型家族并不比另一个更好——它们只是不同。
o 系列模型(“规划者”)在复杂任务上更深入、更长时间地思考,使它们在制定策略、规划复杂问题解决方案以及基于大量模糊信息做出决策方面表现出色。这些模型还能以高准确度和精确度执行任务,使其成为原本需要人类专家的领域——如数学、科学、工程、金融服务和法律服务——的理想选择。
另一方面,延迟更低、成本效益更高的 GPT 模型(“主力军”)专为直接执行而设计。一个应用程序可能会使用 o 系列模型来规划解决问题的策略,并使用 GPT 模型来执行特定任务,尤其是在速度和成本比完美准确性更为重要的情况下。
如何选择
对于你的使用场景来说,最重要的是什么?
速度与成本 → GPT 模型速度更快且成本更低
执行明确定义的任务 → GPT 模型能很好地处理明确定义的任务
准确性和可靠性 → o 系列模型是可靠的决策者
复杂问题解决 → o-series 模型在模糊和复杂中运作
如果速度和成本是完成任务时最重要的因素,且用例由简单明确定义的任务组成,那么 GPT 模型最适合您。然而,如果准确性和可靠性是最重要的因素,并且需要解决一个非常复杂、多步骤的问题,那么 o 系列模型可能更适合您。
大多数 AI 工作流将结合使用两种模型——o 系列用于代理规划和决策,GPT 系列用于任务执行。
何时使用推理模型
1. 处理模糊任务:
推理模型特别擅长处理有限信息或零散信息,通过简单的提示就能理解用户意图并处理指令中的任何空白。事实上,推理模型通常会在做出不成熟的猜测或试图填补信息空白之前,先提出澄清性问题。
2. 大海捞针:
当需要传递大量非结构化信息时,推理模型非常擅长理解并只提取出最相关的信息来回答问题。
3. 在大型数据集中发现关系和细微差别:
推理模型特别擅长对包含数百页密集、非结构化信息的复杂文档进行推理——比如法律合同、财务报表和保险索赔等。
这些模型特别擅长在文档之间找出相似之处,并基于数据中隐含的事实做出决策。推理模型也擅长对细微的政策和规则进行推理,并将其应用到当前任务中以得出合理的结论。
4. 多步骤代理规划:
推理模型对代理规划和策略制定至关重要。当将推理模型用作"规划者"时,我们看到了成功案例,它能为问题制定详细的多步骤解决方案,然后根据是高智能还是低延迟更重要来选择和分配合适的GPT模型("执行者")。
5. 视觉推理:
截至目前,o1是唯一支持视觉能力的推理模型。它与GPT-4o的区别在于,o1能够理解最具挑战性的视觉内容,如结构模糊的图表和表格,或图像质量较差的照片。
从内部测试来看,发现o1能够从高度详细的建筑图纸中识别装置和材料,从而生成全面的材料清单。观察到的最令人惊讶的事情之一是,o1能够在不同图像之间建立联系,它可以将建筑图纸一页上的图例正确应用到另一页,而无需明确指示。例如,对于4x4 PT木柱,o1根据图例认识到"PT"代表压力处理(pressure treated)。
6. 审查、调试和改进代码质量:
推理模型特别擅长审查和改进大量代码,考虑到模型的较高延迟,通常在后台运行代码审查。虽然GPT-4o和GPT-4o mini凭借其较低的延迟可能更适合编写代码,但o3-mini在对延迟要求不太敏感的代码生成用例中表现出色。
7. 评估和基准测试其他模型响应:
推理模型在基准测试和评估其他模型响应方面表现出色。数据验证对确保数据集的质量和可靠性很重要,特别是在医疗保健等敏感领域。传统的验证方法使用预定义的规则和模式,但像o1和o3-mini这样的高级模型可以理解上下文并对数据进行推理,从而提供更灵活和智能的验证方法。
针对推理模型的有效提示
开发者消息是新的系统消息:从o1-2024-12-17版本开始,推理模型支持开发者消息而非系统消息,以符合模型规范中描述的指令链行为。
保持提示简单直接:这些模型擅长理解和响应简短、清晰的指令。
避免思维链提示:由于这些模型内部已经进行推理,所以提示它们"逐步思考"或"解释你的推理过程"是不必要的。
使用分隔符以提高清晰度:使用markdown、XML标签和章节标题等分隔符来清晰地标示输入的不同部分,帮助模型正确解释各个部分。
优先尝试零样本提示,需要时再使用少样本:推理模型通常不需要少样本示例就能产生良好结果,所以首先尝试编写不包含示例的提示。如果对期望输出有更复杂的要求,在提示中包含一些输入和期望输出的示例可能会有帮助。只需确保示例与提示指令非常吻合,因为两者之间的差异可能会产生不良结果。
提供具体指导:如果想明确限制模型的响应(例如"提出预算在500美元以下的解决方案"),请在提示中明确列出这些约束。
明确说明最终目标:在指令中,尽量为成功的响应提供非常具体的参数,并鼓励模型持续推理和迭代,直到符合您的成功标准。
Markdown格式:从o1-2024-12-17版本开始,API中的推理模型将避免生成带有markdown格式的响应。如果确实想要在响应中使用markdown格式,请在开发者消息的第一行包含"Formatting re-enabled"字符串。
如果觉得有用可以转发给你的朋友们,或者给个赞👍和喜欢💗,感谢🙏
详细信息:https://platform.openai.com/docs/guides/reasoning-best-practices#reasoning-models-vs-gpt-models