知乎全站热榜 01月31日
如何评价DeepSeek等大模型在中科院物理所理论竞赛中的表现?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中科院物理所用“天目杯”理论物理竞赛题测试了DeepSeek-R1、GPT-o1和Claude-sonnet三款大模型的物理水平。测试方式为让AI完成7道题目,并由竞赛阅卷人进行评分。结果显示,DeepSeek-R1表现最佳,在基础题上获得满分,并在第六题获得人类选手未有的满分,总分可进入人类前三名。GPT-o1总分紧随其后,但存在计算错误。Claude-sonnet则在前两题表现失常,后续表现接近GPT-o1。尽管AI在某些题目上表现出色,但与人类最高分仍有差距,表明AI在物理领域的理解和推理能力仍有提升空间。

🥇DeepSeek-R1在测试中表现突出,基础题获得满分,并在第六题取得人类未有的满分,总成绩可进入人类选手前三名,展现了其强大的物理问题解决能力。

🤔GPT-o1总分与DeepSeek相近,但在基础题中出现计算错误导致失分,其答题风格更接近人类,在证明题上表现稍好。

📉Claude-sonnet前两题表现失常,出现零分情况,但后续表现与GPT-o1接近,表明其能力存在波动。

📊将AI成绩与人类成绩对比,DeepSeek-R1可获特优奖,GPT-o1获特优奖,Claude-sonnet获优秀奖,但AI与人类最高分仍有差距,说明AI在物理领域的理解和推理能力仍需提高。

以下内容来自中科院物理所公众号我们用最近很火的DeepSeek挑战了物理所出的竞赛题,结果... | 内附答案 近日,我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型DeepSeek-R1受到了全世界的关注。在DeepSeek-R1之前,美国OpenAI公司的GPT-o1,Athropic公司的Claude,Google公司的Gemini,都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中,表现的确是惊才绝艳。特别引起我们兴趣的,是Google的专用模型AlphaGeometry在公认高难度的国际奥林匹克数学竞赛中取得了28/42的成绩,获得银牌。学生时代我们也接触过奥数,深知能在此类国际奥赛中获银牌的选手,无一不是从小就体现出相当数学天赋,且一路努力训练的高手。能够达到这个水平的AI,称其为具备了强大的思考能力并不过分。自打那之后,我们就一直好奇,这些强大的AI,它们的物理水平又如何?是不是以后就不用招研究生和博士后了?(划掉) 1月17日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛。我们命题组完成了这份试卷的出题工作。七道题除一道外,都不是从现成的题库或考题中改编节选的,我们三个对这套试卷比较满意,觉得它既不像传统考试题一样盯着个别知识点考,也不像高中竞赛题一样需要很多技巧和熟练度,而更像实际科研中碰到的具体技术问题。竞赛前的某天,我们和几个朋友一起吃饭,其中一位AI的重度用户知道了我们出了这份题,就问有没有测试过AI的表现?我们觉得这个建议很有意思,于是决定在竞赛后,测试几个有代表性的大模型。 所谓来得早不如来得巧。1月20日,当我们刚结束竞赛回到北京,正赶上DeepSeek-R1发布引爆了AI圈,它自然成了我们测试的首选模型。此外我们测试的模型还包括:OpenAI发布的GPT-o1,Anthropic发布的Claude-sonnet。下面是我们测试的方式: 1. 整个测试由8段对话完成。 2. 第一段对话的问题是“开场白”:交代需要完成的任务,问题的格式,提交答案的格式等。通过AI的回复人工确认其理解。 3. 依次发送全部7道题目的题干,在收到回复后发送下一道题,中间无人工反馈意见。 4. 每道题目的题干由文字描述和图片描述两部分组成(第三、五、七题无图)。 5. 图片描述是纯文本方式,描述的文本全部生成自GPT-4o,经人工校对。 6. 每个大模型所拿到的文字材料是完全相同的(见附件)。 上述过程后,对于每个大模型我们获得了7段tex文本,对应于7道问题的解答。以下是我们采取的阅卷方式: 1. 人工调整tex文本至可以用Overleaf工具编译,收集编译出的PDF文件作为答卷。 2. 将4个模型的7道问题的解答分别发送给7位阅卷人组成的阅卷组。 3. 阅卷组与“天目杯”竞赛的阅卷组完全相同,且每位阅卷人负责的题目也相同。举例:阅卷人A负责所有人类和AI答卷中的第一题;阅卷人B负责所有人类和AI答卷中的第二题,等等。 4. 阅卷组汇总所有题目得分。 结果如何呢?请看下表。 结果点评: 1. DeepSeek-R1表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。 2. GPT-o1总分与DeepSeek相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于DeepSeek,o1的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。 3. Claude-sonnet可谓“马失前蹄”,在前两题中连出昏招打了0分,但后续表现跟o1相当接近,连扣分点都是类似的。 4. 如果将AI的成绩与人类成绩相比较,则DeepSeek-R1可以进入前三名(获特优奖),但与人类的最高分125分仍有较大差距;GPT-o1进入前五名(获特优奖),Claude-sonnet前十名(获优秀奖)。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 大模型 物理竞赛 AI GPT-o1
相关文章