深度财经头条 04月21日 08:54
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI最新多模态推理大模型o3备受瞩目,但随之而来的测试结果差异引发了对该公司透明度和测试实践的质疑。第三方研究机构Epoch AI的独立基准测试结果显示,o3在FrontierMath问题上的得分远低于OpenAI声称的水平。尽管OpenAI可能使用了更强大的内部框架或不同的测试集,但这种差异仍然引发了行业对基准测试可信度的担忧。基准测试“争议”已成为AI行业常见现象,Meta和xAI等公司也曾面临类似质疑。

🤔 OpenAI的o3模型在解决FrontierMath问题上的表现引发争议。OpenAI声称其模型可以解决超过25%的FrontierMath问题,远超竞争对手。然而,第三方机构Epoch AI的测试结果显示,o3的得分仅为10%左右,远低于OpenAI的宣称。

🧐 测试结果差异可能源于不同的测试设置。Epoch AI指出,OpenAI可能使用了更强大的内部框架进行评估,或者使用了FrontierMath的更新版本进行测试。ARC Prize Foundation也证实,公开发布的o3模型与预发布版本有所不同,这可能导致基准测试结果的差异。

😮 基准测试“争议”已成AI行业的常见现象。随着AI模型供应商竞相发布新模型,基准测试的准确性和透明度受到了越来越多的关注。Meta的Llama 4和埃隆·马斯克的xAI的Grok 3都曾因基准测试问题受到质疑,反映出行业面临的共同挑战。


财联社4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3模型 基准测试 AI行业
相关文章