Cnbeta 01月25日
AI社区通过让球在旋转形状中反弹来比拼模型们的能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,人工智能社区兴起了一种非正式的基准测试,即让AI模型编写Python脚本,实现黄色小球在旋转图形中弹跳。测试结果显示,不同AI模型在此任务上的表现差异显著。例如,DeepSeek的R1模型优于OpenAI的o1 Pro,而Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型则在物理模拟上出现错误。尽管弹跳球和旋转形状是编程技巧的有效测试,但作为AI基准测试,其结果并不稳定,细微的提示变化就可能导致结果差异。这突显了为AI模型创建有效测量系统的挑战,以及区分不同模型优劣的困难。

💻AI模型编程挑战:要求AI模型编写Python脚本,实现黄色小球在旋转图形中弹跳,考验其编程和物理模拟能力。

🏆模型表现差异:不同AI模型在此任务中表现差异明显,DeepSeek的R1表现优异,而其他一些模型则出现物理模拟错误。

🤔基准测试局限性:该测试结果不稳定,细微提示变化会影响结果,揭示了当前AI基准测试的局限性。

非正式的、奇怪的人工智能基准不断增加。过去几天,X 上的一些人工智能社区开始痴迷于不同人工智能模型,尤其是所谓的推理模型如何处理类似提示的测试:"编写一个 Python 脚本,让黄色小球在一个图形中弹跳,同时让形状缓慢旋转,并确保小球保持在形状内"。


在"旋转在图形中的球"基准测试中,有些模型比其他模型做得更好。 据 X 上的一位用户称,中国人工智能实验室 DeepSeek 的免费提供的 R1 击败了 OpenAI 的o1 Pro,后者作为OpenAI 的 ChatGPT Pro计划的一部分,每月收费 200 美元。

根据另一X推文 ,Anthropic 的Claude 3.5 Sonnet 和 Google 的Gemini 1.5 Pro 模型错误地判断了物理图形,导致球脱离了图形。而 Otherusers 报告称,Google 的 Gemini 2.0 Flash Thinking Experimental 甚至 OpenAI 的旧版 GPT-4o 都一次性通过了评估。

模拟弹跳球是一项经典编程挑战。 精确的模拟包含碰撞检测算法,该算法试图识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。 编写不当的算法会影响模拟性能,或导致明显的物理错误。

X 用户n8programs是人工智能初创公司 Nous Research 的常驻研究员,他说,他花了大约两个小时从头开始为旋转七边形中的弹跳球编程。n8programs 在一篇帖子中解释说:"我们必须跟踪多个坐标系,了解每个坐标系中的碰撞是如何发生的,并从一开始就设计出可靠的代码。"

不过,虽然弹跳球和旋转形状是对编程技巧的合理测试,但它们并不是一个非常实证的人工智能基准。 即使是提示的细微变化,也会产生不同的结果。 这就是为什么 X 上的一些用户表示使用 o1 时运气更佳,而另一些用户则表示使用 R1 时效果不佳

类似这样的病毒测试则指出了为人工智能模型创建有用的测量系统这一棘手的问题。 除了与大多数人无关的深奥基准之外,通常很难说清一个模型与另一个模型的区别。

许多人正在努力构建更好的测试,例如 ARC-AGI 基准和 Humanity's Last Exam。 我们将拭目以待,在此期间,请观看球在旋转形状中弹跳的 GIF。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能基准 AI模型 编程挑战
相关文章