Gemini 系列又重夺编码王者宝座了?
就在今天,Google 发布了其最新的模型——Gemini 2.5 Pro Preview(I/O 版本)。
作为现有 Gemini 2.5 Pro 的升级版,它在编码能力上的提升备受瞩目。一经推出,便登顶 LMArena 和 WebDev Arena 两大排行榜。
简单介绍一下这两个排行榜:
- LMArena 是通过“众包盲测”方式来评估大语言模型的,用户会在未知模型身份的情况下,对同一提示词下不同模型的回复进行投票评判。WebDev Arena 则是更专注于网页开发任务,由人类评估员对模型生成的代码质量进行排名。
Google 宣称,Gemini 2.5 Pro Preview 是其迄今最为智能的模型,尤其擅长编码任务,特别是在构建交互式 Web 应用方面表现突出。
不过,鉴于以往一些大语言模型在测评中多多少少都存在“刷榜”情况,实际能力与宣传常有出入。
既然 Google 宣称 Gemini 2.5 Pro Preview “在构建交互式 Web 应用方面表现突出”,那么今天我们就针对这一点进行一系列实测,探究其真实的编码能力表现。
交互式 Web 应用编程能力实测
交互式 3D 作品集网站
我们要求 Gemini 创建一个交互式的 3D 作品集网站。
核心需求包括:
- 作品集项目以圆形阵列排布场景中包含地面以增强空间感用户可通过鼠标拖拽旋转场景视角。当用户点击某个作品集项目时,右侧信息面板需同步更新,显示该项目的标题和描述。
效果预览:gemini.google.com/share/073f0…
测试结果显示,Gemini 2.5 Pro Preview 能够较好地理解并实现这些交互逻辑和视觉布局,体现了其在处理常见交互场景下的代码生成能力。
自然图像到代码:烟花模拟程序
我们向 Gemini 提供了一张烟花绽放的图片,要求其创建一个烟花模拟程序。
程序需实现用户在屏幕任意位置点击即可触发与图片效果相似的烟花动画。
效果预览:g.co/gemini/shar…
从生成结果看,Gemini 准确识别了烟花多层爆炸的视觉特征,并基本还原了三个主要层次的粒子颜色。
略显不足的是,各层级效果的叠加持续时间偏短,使得整体视觉饱满度稍逊一筹。
尽管如此,这依然展示了其不俗的图像理解和代码转换能力。
图像辅助的填色卡通游戏
在此测试中,我们提供了一张待填色的卡通图片,要求 Gemini 创建一个填色游戏。
游戏需提供几种与卡通主题匹配的调色盘,用户选择颜色后,点击图片中的特定区域即可完成上色。
效果预览:g.co/gemini/shar…
Gemini 成功实现了核心的填色交互功能,并能根据图像内容初步推荐色彩方案,这对于快速原型验证具有一定的实用价值。
基于分镜图的角色行走动画
我们提供了一张包含角色完整行走动作分解图,要求 Gemini 首先将每个独立的动作帧进行精确裁剪,确保各裁剪片段尺寸一致且仅包含一个完整的人物主体。
随后,基于这些处理后的图像资源,生成一个 2D 角色行走动作的调试界面,用户可通过界面右下角的虚拟方向键控制角色移动。
效果预览链接:g.co/gemini/shar…
该测试不仅考察了模型生成代码的图像处理能力(如精确裁剪),也检验了其在游戏逻辑和用户交互方面的代码生成水平。Gemini 在此任务中的表现可圈可点。
经典游戏「坦克大战」的复刻挑战
这是一个我常用以评估 AI 编程平台能力的案例。此前,无论是 Bolt.new、V0 还是 Replit 等平台,在尝试一次性生成「坦克大战」这类相对复杂的游戏时,即便提供了详尽的规则描述,完成度也普遍不高。
因此,在测试 Gemini 2.5 Pro Preview 时,我最初并未抱过高期望。但其最终呈现的效果相当出色。
效果预览链接:g.co/gemini/shar…
仅提供了一段30多分钟游戏演示视频,Gemini 便能对游戏的核心机制有一番透彻的理解和实现能力,比如:
- 地形区分:实现了砖块可摧毁,铁块不可摧毁的特性。敌人等级:区分了不同类型的敌人(例如,普通坦克与需要多次攻击的重型坦克)。视觉效果:增加了消灭敌人时的爆炸波纹等动态效果。游戏机制:实现了角色出生时的短暂无敌状态,以及消灭高级敌人后获得增益效果 (Buff) 的奖励。
尽管生成结果中存在一些小 Bug(例如部分敌人单位可能原地卡顿),但这并不掩盖其整体表现的亮点。
考虑到模型是完全基于对视频内容的理解来构建游戏逻辑的,能达到这一成果已经足够令人感到惊奇。
总结
Gemini 2.5 Pro Preview 在编码能力上的提升,尤其是其“自然图像/视频到代码”的转换能力,无疑具有重要的里程碑意义。
传统软件开发流程中,从需求挖掘到最终产品交付,往往涉及冗长且易产生偏差的沟通与转换。
需求方需要将视觉构想转化为文字,辅以原型图,再由相关人员向开发团队转述。
开发者则需准确理解需求,并将其通过编程翻译成机器语言。
“自然图像/视频到代码”能力的出现,有望显著压缩这一流程。
用户可以直接提供视觉化参考,辅以简要描述,AI 即可辅助生成初始代码,从而提高开发效率,并减少信息传递中的损耗和误解。
不过,在肯定其进步的同时,我们也应保持理性。
毕竟,目前主流的对于模型编码能力的评测(包括今天这场亲测在内),都主要集中在单次代码生成的质量。
对于更复杂的、需要模型进行多轮交互、自我修正和迭代优化的半自主代理模式,模型是否依旧表现优越,仍有待进一步的观察和评估。