MIT 科技评论 - 本周热榜 03月24日 00:04
一名高中生创建AI测试网站,让用户能和模型在《我的世界》中进行建造比赛
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MC-Bench是一个基于《我的世界》的AI基准测试平台,旨在通过让AI模型在游戏中完成创作任务,来评估其生成能力。该平台允许用户投票选出最佳作品,从而克服了传统AI基准测试的局限性。MC-Bench吸引了Anthropic、谷歌、OpenAI和阿里巴巴等公司的参与,它们利用各自的产品运行基准测试。与传统的标准化测试不同,MC-Bench更注重AI在实际场景中的表现,为AI发展提供了一种更直观、更贴近用户体验的评估方式。

🎮 MC-Bench的核心在于利用《我的世界》这款游戏作为AI的测试平台,通过让AI模型在游戏中进行创作来评估其能力。用户可以对AI生成的作品进行投票,从而判断哪个模型表现更好,并以此作为评估标准。

💡 MC-Bench的优势在于其对AI评估方式的创新。传统的基准测试往往存在局限性,而MC-Bench通过让AI在人们熟悉的游戏环境中完成任务,使其更容易被理解和评估。这使得AI的发展进展更加直观。

🏢 MC-Bench吸引了多家科技巨头的参与,包括Anthropic、谷歌、OpenAI和阿里巴巴等。这些公司利用它们的产品来运行基准测试,但并未以其他方式参与该项目。这表明了业界对MC-Bench的认可和对其未来发展的期待。

随着传统的 AI 基准测试被证明存在不足之处,AI 开发者们正在转向更具创意的方法来评估生成式 AI 模型的能力。对于 12 年级的阿迪·辛格(Adi Singh)来说,这个方法是《我的世界》(Minecraft),一款微软旗下的沙盒建造游戏。

(来源:MINECRAFT)

Minecraft Benchmark(下称“MC-Bench”)网站是辛格和他人合作开发的,目的是让 AI 模型在挑战中相互竞争,应对提示的方式则是直接用《我的世界》完成创作。用户可以投票选出哪个模型做得更好,只有在投票后才能看到每个《我的世界》作品都是由哪个 AI 完成的。

《我的世界》的价值并不在于游戏本身,而在于人们对它的熟悉程度。毕竟,它是有史以来最畅销的电子游戏之一。

辛格表示,《我的世界》让人们能更轻松地看到 AI 发展的进展。人们熟悉《我的世界》,也习惯了它的画面风格和整体氛围。

(来源:https://mcbench.ai/about)

MC-Bench 网站上目前列出了几位贡献者。根据 MC-Bench 网站的信息,Anthropic、谷歌、OpenAI 和阿里巴巴已资助该项目使用它们的产品来运行基准测试提示,但这些公司并未以其他方式参与该项目。

辛格表示,目前他只是在进行一些简单的构建,以反思 AI 领域从 GPT-3 时代以来所取得的进步,但他未来可能会考虑扩展到更长期的项目,以及其他以目标为导向的任务。其表示,游戏可能只是一种测试代理推理的媒介,它比现实生活更安全,也更容易控制以用于测试目的。

其他游戏比如《精灵宝可梦红》《街头霸王》和《你画我猜》也被用作 AI 的实验基准,这在一定程度上是因为对 AI 进行基准测试这门“艺术”向来极为棘手。

(来源:MINECRAFT BENCHMARK)

研究人员经常在标准化评估中对 AI 模型进行测试,但许多此类测试会让 AI 具有天然优势。由于训练方式的原因,这些模型天生擅长解决某些特定领域的难题,尤其是那些需要死记硬背或简单推理的问题。

简而言之,我们看到 OpenAI 的 GPT-4 可以在法学院入学考试中取得 88% 的成绩,但却无法准确说出“strawberry”这个词中有多少个“r”。Anthropic 的 Claude 3.7 Sonnet 在标准化软件工程基准测试中的分数为 62.3%,但它在玩《宝可梦》游戏时的表现却比大多数五岁儿童还要差。

(来源:MINECRAFT BENCHMARK)

从技术上讲,MC-Bench 是一个编程基准测试,因为模型被要求编写代码(完成构建)来回应提示,例如创造“雪人 Frosty”或“原始沙滩上迷人的热带海滩小屋”。

但对于大多数 MC-Bench 评判者来说,评估一个雪人看起来是否更好,比深入研究代码要容易得多,这使得该项目具有更广泛的吸引力,并因此有可能获得更多关于哪些模型持续得分更高的数据。

当然,这些分数是否对 AI 的实用性有重大影响还有待商榷。不过,辛格坚信这是一个强烈的信号。

其告诉媒体,目前 MC-Bench 的测试结果排行榜非常接近于他自己使用这些模型的经验,这与许多纯文本基准测试是不同的,因此也许 MC Bench 对于相关公司是有用的,可以帮助这些公司了解自己是否正在朝着正确的方向前进。

参考资料:

https://mcbench.ai/

https://x.com/_mcbench

https://github.com/mc-bench

运营/排版:何晨龙

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MC-Bench AI 基准测试 《我的世界》 生成式AI
相关文章