OpenAI的AI模型o3在Ai2的SciArena基准测试中,于多个科学领域展现出卓越的回答能力。该测试平台通过众包投票评估23个大型语言模型在科学问题回答上的表现,o3凭借其详细的文献引用和技术细节丰富的回答,获得了压倒性的支持。中国DeepSeek-R1和Google的Gemini-2.5-Pro也表现出色,分别在不同领域中占据领先地位。SciArena旨在通过用户反馈推动AI模型创新,但其持续发展依赖于用户参与度。研究人员同时强调,在使用大型语言模型生成的答案时,需注意其可能存在的局限性。
🥇OpenAI的o3模型在SciArena测试中表现最佳,在自然科学、医疗保健、工程学及人文与社会科学领域均获得高分,这主要得益于其详细的文献引用和技术细节丰富的回答。
🥈中国开源模型DeepSeek-R1和Google的Gemini-2.5-Pro在SciArena测试中表现出色,DeepSeek-R1在自然科学中排名第二,工程学中位列第四;Google的Gemini-2.5-Pro在自然科学中排名第三,工程学和医疗保健中排名第五。
🗳️SciArena平台通过众包反馈评估AI模型表现,用户可免费提问并对答案进行投票,但仅认证用户的投票计入排行榜,这种设计有助于避免分数操纵等问题。
📚SciArena通过Semantic Scholar提供参考文献,增强答案的参考性,有助于研究者跟进前沿文献,推动AI模型创新。
美国人工智能(AI)巨头OpenAI打造的AI模型o3,在艾伦人工智能研究所(Ai2)上周发布的基准测试平台SciArena中被评为回答多领域科学问题的最佳工具。该平台依据102名研究人员对答案质量的投票结果,对23个大型语言模型(LLM)在科学问答中的表现进行了排名。

OpenAI的o3在自然科学、医疗保健、工程学及人文与社会科学领域的回答表现最优,获得超13,000票支持。中国开源模型DeepSeek-R1在自然科学中排名第二,工程学中位列第四;Google的Gemini-2.5-Pro在自然科学中排名第三,工程学和医疗保健中排名第五。
Ai2指出,o3的优势在于其详细引用文献并提供技术细节丰富的回答,但模型表现差异可能部分源于训练数据和优化目标等方面的不同。
SciArena是首批通过众包反馈对科学任务表现进行排名的平台之一,其设计避免了分数操纵等问题。 用户可免费使用该平台提问,系统随机提供两个模型的答案并邀请投票,但仅认证用户的投票计入排行榜。平台通过Semantic Scholar提供参考文献,以增强答案的参考性。
悉尼大学的研究人员认为,SciArena有助于研究者跟进前沿文献,并推动AI模型创新,但其可持续性依赖用户参与度。最后,研究者提醒,大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题,其生成内容不能替代原文阅读研究论文。


查看评论