IT之家 04月19日 07:48
OpenAI 新推理模型被曝产生更多“幻觉”,o3 / o4-mini 性能与错误率一同提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 最新发布的 o3 和 o4-mini 模型在编程和数学等任务上表现出色,但却面临着一个严峻的挑战:幻觉问题加剧。与之前的模型相比,o3 和 o4-mini 在生成虚假信息方面表现更差。根据 OpenAI 的内部测试,这两个模型出现幻觉的频率甚至高于传统“非推理”模型。虽然 OpenAI 正在努力解决这个问题,但幻觉问题仍然是生成式 AI 发展过程中一个难以攻克的难题。

🤔 OpenAI的新模型 o3 和 o4-mini 在多个方面展现出业内领先水平,但在“幻觉”问题上却表现更差,这与以往模型降低幻觉频率的趋势相悖。

📈 OpenAI 内部基准测试 PersonQA 表明,o3 模型回答问题时出现幻觉的比例高达 33%,几乎是前代推理模型 o1 和 o3-mini 的两倍;而 o4-mini 的幻觉率更是高达 48%。

💻 第三方机构 Transluce 的测试显示,o3 在回答问题时会凭空捏造信息,例如声称在不具备相应操作能力的设备上运行代码,这凸显了幻觉问题的严重性。

IT之家 4 月 19 日消息,OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准,不过,这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道,幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一,即使是目前性能最优秀的模型也难以完全避免。过去,每一代新模型在降低幻觉频率方面通常都会取得小幅进步,但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试,作为推理模型的 o3 和 o4-mini,出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini,甚至还高于传统“非推理”模型(IT之家注:如 GPT-4o)。

OpenAI 在针对这两款模型发布的技术报告中表示:“要弄清楚随着推理模型规模的扩大,幻觉问题为何反而变得更加严重,还需要进一步研究。”报告指出,尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往,但由于模型输出的答案总量增加,导致其既能作出更多准确判断,同时也不可避免地出现更多错误甚至幻觉

在 OpenAI 设计的内部基准测试 PersonQA 中,o3 回答问题时出现幻觉的比例达到 33%,几乎是前代推理模型 o1 和 o3-mini 的两倍,后者的幻觉率分别为 16% 和 14.8%。在同一测试中,o4-mini 的表现更差,幻觉率高达 48%

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现,o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如,Transluce 曾观察到,o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码,并将结果复制进了答案中。实际上,虽然 o3 拥有一部分工具访问权限,但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示:“解决幻觉问题是我们一直在推进的重点研究方向,我们也在不断努力提升模型的准确性与可靠性。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3 o4-mini 幻觉 AI模型
相关文章