科学问答AI哪家强？ OpenAI o3夺冠 DeepSeek-R1紧随其后

Cnbeta 07月11日 12:37

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

在艾伦人工智能研究所（Ai2）发布的SciArena基准测试中，OpenAI的AI模型o3凭借其卓越的科学问答能力脱颖而出，成为多领域科学问题的最佳解答工具。该测试基于102名研究人员的投票结果，对23个大型语言模型（LLM）在科学问答中的表现进行了排名。o3在自然科学、医疗保健、工程学及人文与社会科学领域均表现出色，获得了大量支持。SciArena平台通过众包反馈评估模型表现，并提供参考文献，旨在推动AI模型在科学领域的进步。

🥇OpenAI的o3在SciArena测试中表现突出，被评为回答多领域科学问题的最佳工具。该模型在自然科学、医疗保健、工程学及人文与社会科学领域均表现优异，获得了超过13,000票的支持，这反映了其在理解和回答科学问题方面的强大能力。

🥈SciArena平台通过众包反馈机制对23个大型语言模型（LLM）在科学问答中的表现进行排名。该平台的设计旨在避免分数操纵等问题，保证了评估的公正性和客观性。用户可以免费使用该平台提问，系统随机提供两个模型的答案并邀请投票，但只有认证用户的投票才会被计入排行榜。

🔬o3的优势在于其能够详细引用文献并提供技术细节丰富的回答。这使得o3的回答不仅准确，而且具有很高的参考价值，有助于用户深入理解相关科学问题。然而，研究人员也指出，大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题，因此其生成内容不能替代原文阅读研究论文。

美国人工智能（AI）巨头OpenAI打造的AI模型o3，在艾伦人工智能研究所（Ai2）上周发布的基准测试平台SciArena中被评为回答多领域科学问题的最佳工具。该平台依据102名研究人员对答案质量的投票结果，对23个大型语言模型（LLM）在科学问答中的表现进行了排名。

OpenAI的o3在自然科学、医疗保健、工程学及人文与社会科学领域的回答表现最优，获得超13，000票支持。中国开源模型DeepSeek-R1在自然科学中排名第二，工程学中位列第四；Google的Gemini-2.5-Pro在自然科学中排名第三，工程学和医疗保健中排名第五。

Ai2指出，o3的优势在于其详细引用文献并提供技术细节丰富的回答，但模型表现差异可能部分源于训练数据和优化目标等方面的不同。

SciArena是首批通过众包反馈对科学任务表现进行排名的平台之一，其设计避免了分数操纵等问题。用户可免费使用该平台提问，系统随机提供两个模型的答案并邀请投票，但仅认证用户的投票计入排行榜。平台通过Semantic Scholar提供参考文献，以增强答案的参考性。

悉尼大学的研究人员认为，SciArena有助于研究者跟进前沿文献，并推动AI模型创新，但其可持续性依赖用户参与度。最后，研究者提醒，大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题，其生成内容不能替代原文阅读研究论文。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签