Z Potentials 03月22日 17:35
速递|高中生在《我的世界》发起AI智力标准,百万建造玩家投票选出最佳模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了MC-Bench,一个基于Minecraft的AI模型评估平台。该平台由高中生Adi Singh创建,旨在通过让AI模型在Minecraft中创作作品来评估它们的能力。用户可以对模型生成的作品进行投票,从而判断哪个模型表现更好。MC-Bench得到了多家科技公司的资助,并计划扩展到更复杂的任务。文章指出,Minecraft的熟悉度使其成为一个理想的AI评估平台,能够更直观地展示AI的发展进展,并弥补了传统AI基准测试的不足。

💡MC-Bench是一个利用Minecraft游戏评估AI模型能力的平台,用户通过投票选出最佳作品。

🕹️MC-Bench的创建者Adi Singh认为,Minecraft的普及度使得AI的发展更容易被人们理解和评估。

💰MC-Bench得到了Anthropic、Google、OpenAI和阿里巴巴等公司的资助,用于运行基准测试提示。

🤔与传统的AI基准测试相比,MC-Bench更关注AI在实际应用中的表现,例如创作“Frosty the Snowman”或“在原始沙滩上的一座迷人的热带海滩小屋”。

📈MC-Bench的评分结果与用户体验高度相关,为AI模型的改进提供了有价值的参考。

TechCrunch 2025-03-22 12:00 北京

Minecraft 让人们更容易看到AI发展的进展

图片来源:Minecraft

随着传统的人工智能基准测试技术显得力不从心,AI 构建者正转向更具创意的方法来评估生成式 AI 模型的能力。

对一群开发者而言,这个新舞台便是微软旗下的沙盒建造游戏——Minecraft

网站 Minecraft Benchmark(或 MC-Bench)是合作开发的,旨在让 AI 模型在直接挑战中相互竞争,以响应提示并创建 Minecraft 作品。用户可以投票决定哪个模型做得更好,只有在投票后才能看到每个 Minecraft 作品是由哪个 AI 制作的。

图片来源:Minecraft

对于发起 MC-Bench 的 12 年级学生 Adi Singh 来说,Minecraft 的价值并不在于游戏本身,而在于人们对它的熟悉程度。毕竟,它是有史以来最畅销的视频游戏。

即使是没有玩过游戏的人,仍然可以评估哪个方块化的菠萝表现得更出色。

Minecraft 让人们更容易看到 AI 发展的进展,”Singh 告诉 TechCrunch。“人们已经习惯了 Minecraft,习惯了它的外观和氛围。”

MC-Bench 目前列出了八名志愿者贡献者。根据 MC-Bench 的网站,AnthropicGoogleOpenAI 和阿里巴巴已资助该项目,使用他们的产品来运行基准测试提示,但这些公司并无其他关联。

“目前我们只是在做一些简单的构建,以反思我们从 GPT-3 时代以来所取得的进展,但我们可能会看到自己扩展到这些更长的计划和目标导向的任务,”辛格说。

“游戏可能只是一个测试代理推理的媒介,它比现实生活中更安全,并且更可控,用于测试目的,在我看来更理想。”

其他游戏如《精灵宝可梦红》、《街头霸王》和《你画我猜》已被用作人工智能的实验基准,部分原因是人工智能基准测试非常棘手。

研究人员经常在标准化评估中测试人工智能模型,但许多这些测试为人工智能提供了主场优势。

由于它们的训练方式,模型天生擅长某些狭窄类型的问题解决,特别是需要死记硬背或基本外推的问题解决。

简而言之,很难理解 OpenAI 的 GPT-4 在 LSAT 考试中能排在第 88 百分位,却无法分辨“strawberry”这个词中有多少个 RAnthropic 的 Claude 3.7 Sonnet 在标准化软件工程基准测试中达到了 62.3%的准确率,但在玩《宝可梦》方面却不如大多数五岁儿童。

图片来源:Minecraft

MC-Bench 在技术上是一个编程基准测试,因为模型被要求编写代码来创建提示的构建,比如“Frosty the Snowman”或“在原始沙滩上的一座迷人的热带海滩小屋”。

但对于大多数 MC-Bench 用户来说,评估一个雪人是否看起来更好比深入代码更容易,这使得该项目具有更广泛的吸引力——从而有可能收集更多关于哪些模型始终表现更好的数据。

当然,这些分数在多大程度上能反映 AI 的实用性还有待讨论。不过,辛格坚称它们是一个强有力的信号。

“当前的排行榜与我使用这些模型的体验非常接近,这与许多纯文本基准测试不同,”辛格说。“也许MC-Bench对公司来说是有用的,可以帮助他们了解是否走在正确的方向上。”


本文翻译自:https://techcrunch.com/2025/03/20/a-high-schooler-built-a-website-that-lets-you-challenge-ai-models-to-a-minecraft-build-off/

编译:ChatGPT

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Minecraft AI MC-Bench 生成式AI 基准测试
相关文章