OpenAI推出新功能「深度研究」，能生成可以达到分析师级别的报告，如何评价这一功能？

知乎全站热榜 02月04日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI在遭遇DeepSeek冲击后，加快了产品更新速度。最新发布的ChatGPT新功能“深度研究”旨在通过联网和深度思考，在5到30分钟内生成分析师级别的报告。这项功能被视为“按需提供专家”服务，能显著缩短完成复杂任务的时间。尽管OpenAI承认该功能可能存在幻觉和错误推断，但其错误率已低于现有模型。在Humanity’s Last Exam测试中，“深度研究”模型的准确率达到26.6%，远超DeepSeek的R1模型，显示出其在专家级问题上的强大能力。

🚀 OpenAI发布ChatGPT新功能“深度研究”，旨在快速生成分析师级别的深度报告，大幅缩短用户完成复杂任务的时间。

🌐 “深度研究”功能能够联网并进行深度思考，在5到30分钟内完成，被视为“按需提供专家”的服务，可以替代过去需要数小时甚至数天才能完成的工作。

🧪 在Humanity’s Last Exam测试中，“深度研究”模型在专家级问题上的准确率高达26.6%，远超DeepSeek R1模型的9.4%，显示了其在学术领域的强大能力。

遭遇DeepSeek冲击后，OpenAI新产品功能的发布频率显著加快。继3天前发布正式版o3-mini模型并在ChatGPT中免费增加“推理”按键后，北京时间2月3日上午，OpenAI发布了ChatGPT新功能“深度研究”（Deep Research），该功能旨在通过5到30分钟的联网和深度思考后，生成可以达到分析师级别的报告。目前Pro用户已经可以使用该功能。 OpenAI首席执行官山姆·奥特曼表示，这是如同“按需提供专家”一样的服务，可以完成之前需要花费数小时或数天完成的任务。不过，OpenAI方面表示，该功能有时也会在回答中产生幻觉或做出错误的推断，但错误出现的概率明显低于现有ChatGPT旗下其他模型。值得注意的是，在Humanity’s Last Exam（简称HLE）测试中，深度研究所使用的模型在专家级问题上达到了26.6%的准确率，创下新高。相比之下，DeepSeek的R1模型的准确率是9.4%。这一测试由全球众多领域专家共同开发，目的是评估人工智能在广泛学科领域的表现，被视为衡量人工智能学术能力的前沿基准。该测试包含超过3000道多项选择题和简答题，涵盖从语言学到火箭科学、从古典学到生态学等100多个学科领域。资料来源刚刚，OpenAI上线Deep Research！人类终极考试远超DeepSeek R1

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签