IT之家 03月22日 15:38
外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了名为MC-Bench的AI评测平台,该平台基于热门沙盒游戏《我的世界》,让AI模型在相同的提示下生成建筑作品,并通过用户投票进行评比。MC-Bench由高中生阿迪・辛格创建,旨在通过直观的方式评估AI模型的能力,并获得Anthropic、谷歌、OpenAI和阿里巴巴等公司的计算资源支持。尽管测试仍处于基础阶段,但MC-Bench为AI开发者提供了一种新的评估手段,有助于观察AI从GPT-3时代至今的进步,并为未来更复杂的任务评估提供参考。

🤔 MC-Bench是一个专门为AI评测而开发的网站,它利用《我的世界》这款游戏的知名度,让AI模型基于相同的提示生成建筑作品,并通过用户投票来评判优劣。

💡 MC-Bench的创建者认为选择《我的世界》的意义在于其知名度,即使不玩游戏,人们也能直观地分辨作品的优劣,这使得AI发展的进步更加直观。

💻 MC-Bench目前主要用于观察AI从GPT-3时代至今的进步,但未来可能拓展到更复杂的目标导向任务和长期规划能力评估,游戏提供了更安全、更可控的测试环境。

📊 MC-Bench属于编程基准测试,AI需要编写代码来生成建筑。虽然测试结果是否能完全衡量AI的实际应用价值有待商榷,但其数据仍具备重要的参考意义,或能帮助AI开发者判断是否走在正确的方向上。

🤝 MC-Bench得到了Anthropic、谷歌、OpenAI和阿里巴巴等公司的AI计算资源支持,但这些公司并未直接参与开发。

IT之家 3 月 22 日消息,由于传统 AI 基准测试方法难以全面评估模型能力,AI 开发者正尝试更具创意的测试方式,其中一种测试手段,则是微软沙盒建造游戏《我的世界》。

据外媒 TechCrunch 报道,名为阿迪・辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技,基于相同的提示生成建筑作品。用户可以为自己认为更出色的作品投票,而投票结束后才会显示具体是哪款 AI 生成了哪些作品。

其认为选择《我的世界》的意义并不在于游戏本身,而在于它的知名度。即便没玩过这款游戏,人们依然能分辨哪个方块状的菠萝更逼真。“《我的世界》能让 AI 发展的进步更加直观,大家对《我的世界》的风格和视觉效果都很熟悉。”

目前,MC-Bench 的志愿贡献者共有 8 人。IT之家从 MC-Bench 网站的信息获悉,Anthropic、谷歌、OpenAI 和阿里巴巴为该项目提供了 AI 计算资源支持,但并未直接参与开发。

“目前,我们的测试仍然较为基础,主要用于观察 AI 从 GPT-3 时代至今的进步。但未来,我们或许会拓展到更复杂的目标导向任务和长期规划能力评估,游戏或许是测试 AI 智能体推理能力的一种理想方式 —— 相比现实世界,它更安全,也更可控。”

严格来说,MC-Bench 仍属于编程基准测试,因为 AI 需要编写代码来生成建筑,例如“霜雪人”或“热带风情的海滨小屋”。

相较于分析代码,大多数用户更容易通过作品本身来评判 AI 的表现。至于这些测试结果是否能真正衡量 AI 的实际应用价值,仍有待商榷。但辛格认为,这些数据仍然具备重要参考意义。“MC-Bench 当前的排行榜与我的实际使用体验高度吻合,而这在许多传统文本基准测试中并不常见。或许,它能帮助 AI 开发者判断自己是否走在正确的方向上。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MC-Bench 我的世界 AI评测 人工智能 基准测试
相关文章