PaperAgent 2024年09月24日
OpenAI o1多步更复杂规划能力仅为23.63%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

前顶会AAAI主席发布评估OpenAI o1推理规划能力的论文,指出LLM在规划推理任务上的不足,o1在某些方面表现较好但仍存在问题,且推理成本高

🥇OpenAI o1模型被设计为大型推理模型(LRM),旨在克服传统LLMs的限制。在PlanBench的静态测试集上,o1在Blocksworld问题上表现显著优于其他LLMs,准确率达97.8%,但在Mystery Blocksworld问题上准确率为52.8%

💪LLM在处理语言相关任务上有进展,但在复杂规划和推理任务上表现不佳。在Blocksworld问题的测试中,最好的LLMs在未混淆问题上准确率为62.6%,在语义相同但句法混淆的问题上,所有LLMs准确率均低于5%

🚀当问题变得更复杂时,o1模型性能迅速下降。如在需要20到40步解决的更大Blocksworld问题上,o1准确率仅为23.63%

🙅‍OpenAI o1宣称能准确识别无法解决的问题,但实验结果显示其正确识别比例不高,在被修改为无法解决的Blocksworld问题上,正确识别不可解问题的比例为27%

💰o1模型的推理成本远高于传统LLMs,且推理过程缺乏透明度,增加了成本的不可预测性

2024-09-24 12:27 湖北

前顶会AAAI主席发布了一篇17页的OpenAI o1的推理规划能力评估论文

前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文,并正式将o1-like的LLM更名为LRM(大型推理模型)。

LLM仍然不能很好的规划

尽管LLMs在处理语言相关的任务上取得了显著的进展,但它们在需要复杂规划和推理的任务上仍然表现不佳。

通过使用PlanBench基准测试对多个LLMs进行了评估,包括在Blocksworld(经典的规划领域)问题的静态数据集上测试它们的表现:

在Blocksworld和Mystery Blocksworld领域600个实例上的性能,涵盖了使用zero-shot和one-shot提示的不同家族的大型语言模型表现最好的准确率以粗体显示。

OpenAI o1评测

OpenAI o1模型被设计为一个大型推理模型(LRM),旨在通过新的架构和训练方法来克服传统LLMs的限制。与之前的LLMs相比,o1似乎被训练成了一个近似推理器而不仅仅是一个检索器,o1在PlanBench上的表现:

OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、Mystery Blocksworld和随机化Mystery Blocksworld领域的600个实例上的性能和平均所需时间。

这些示例来自Mystery Blocksworld。Fast Downward,一个领域无关的规划器[8],几乎瞬间解决所有给定的实例,并保证完美的准确性。大型语言模型(LLMs)甚至在最小的实例上也表现挣扎。测试的两个大型推理模型(LRMs),o1-preview和o1-mini,出人意料地有效,但这种性能仍然不稳定,并且随着长度的增加迅速下降。

OpenAI o1处理更复杂问题的挑战

当问题变得更复杂时,o1模型的性能迅速下降。例如,在需要20到40步解决的更大Blocksworld问题上,o1的准确率仅为23.63%

这表明o1在处理更复杂规划问题时的性能仍然有限,并没有表现出与问题规模无关的稳健性能。

即使是(常规的,未混淆的)Blocksworld数据集扩展到需要更多步骤的问题,也会恶化o1-preview的性能。在测试需要至少20步才能解决的110个实例时,它的准确率仅为23.63%。

OpenAI o1在处理不可解问题上的表现

o1被宣称能够准确识别无法解决的问题,这是规划能力的一个重要方面。

然而,实验结果显示,在被修改为无法解决的Blocksworld问题上,o1正确识别不可解问题的比例并不高(27%),并且有时会错误地声称可解问题为不可解。

在Blocksworld和随机化Mystery Blocksworld领域,OpenAI的o1-preview在100个无法解决和600个可解决的实例上声称问题无法解决的比率。真阴性率是正确标记为无法解决的无法解决实例的百分比。假阴性率是错误标记为无法解决的可解决实例的百分比。以前的模型在这个表中没有显示,因为它们在所有情况下的真阴性率和假阴性率通常都是0%。

成本和效率考量

o1模型的推理成本远高于传统LLMs,这可能会影响其在实际应用中的可行性。

o1的推理过程缺乏透明度,用户无法控制推理过程中生成的“推理token”数量,这增加了成本的不可预测性。

每100个实例的成本(以美元计)。大型推理模型(LRMs)比大型语言模型(LLMs)的成本要高得多。

最后,论文中对OpenAI o1创造性解释的有趣评论:“虽然我们的主要关注点是提供o1在PlanBench上性能的定量评估,我们也注意到了o1的一个值得评论的特点。当模型给出错误答案时,它有时还会提供一个创造性的、但无意义的解释来为其决定辩护。这几乎就像是o1从产生幻觉变成了操纵他人(煤气灯效应”(Gaslighting)是一种心理操纵手段)!"

https://arxiv.org/abs/2409.13373LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o1 推理规划能力 LLM 成本效率 问题识别
相关文章