掘金 人工智能 05月10日 04:18
Gemini 2.5 Pro Preview 一手实测,编码王者,竟恐怖如斯!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌最新发布的Gemini 2.5 Pro Preview在编码能力上表现出色,尤其擅长构建交互式Web应用。通过一系列实测,包括创建交互式3D作品集网站、烟花模拟程序、填色卡通游戏、角色行走动画以及复刻经典游戏「坦克大战」,Gemini 2.5 Pro Preview展现了其强大的图像理解和代码转换能力。它能够理解视觉需求并生成相应的代码,有望简化软件开发流程,提高开发效率,并减少信息传递中的损耗和误解。

🎨Gemini 2.5 Pro Preview 能够根据用户提供的图片,快速生成可交互的Web应用,例如,通过一张烟花绽放的图片,生成烟花模拟程序,准确识别烟花多层爆炸的视觉特征,并基本还原了三个主要层次的粒子颜色。

🎮在复刻经典游戏「坦克大战」的挑战中,仅提供了一段30多分钟游戏演示视频,Gemini 便能对游戏的核心机制有一番透彻的理解和实现能力,实现了地形区分、敌人等级、视觉效果和游戏机制。

✨“自然图像/视频到代码”能力的出现,有望显著压缩传统软件开发流程,用户可以直接提供视觉化参考,辅以简要描述,AI 即可辅助生成初始代码,从而提高开发效率,并减少信息传递中的损耗和误解。

Gemini 系列又重夺编码王者宝座了?

就在今天,Google 发布了其最新的模型——Gemini 2.5 Pro Preview(I/O 版本)。

作为现有 Gemini 2.5 Pro 的升级版,它在编码能力上的提升备受瞩目。一经推出,便登顶 LMArena 和 WebDev Arena 两大排行榜。

简单介绍一下这两个排行榜:

Google 宣称,Gemini 2.5 Pro Preview 是其迄今最为智能的模型,尤其擅长编码任务,特别是在构建交互式 Web 应用方面表现突出

不过,鉴于以往一些大语言模型在测评中多多少少都存在“刷榜”情况,实际能力与宣传常有出入。

既然 Google 宣称 Gemini 2.5 Pro Preview “在构建交互式 Web 应用方面表现突出”,那么今天我们就针对这一点进行一系列实测,探究其真实的编码能力表现。

交互式 Web 应用编程能力实测

交互式 3D 作品集网站

我们要求 Gemini 创建一个交互式的 3D 作品集网站。

核心需求包括:

效果预览:gemini.google.com/share/073f0…

测试结果显示,Gemini 2.5 Pro Preview 能够较好地理解并实现这些交互逻辑和视觉布局,体现了其在处理常见交互场景下的代码生成能力。

自然图像到代码:烟花模拟程序

我们向 Gemini 提供了一张烟花绽放的图片,要求其创建一个烟花模拟程序。

程序需实现用户在屏幕任意位置点击即可触发与图片效果相似的烟花动画。

效果预览:g.co/gemini/shar…

从生成结果看,Gemini 准确识别了烟花多层爆炸的视觉特征,并基本还原了三个主要层次的粒子颜色。

略显不足的是,各层级效果的叠加持续时间偏短,使得整体视觉饱满度稍逊一筹。

尽管如此,这依然展示了其不俗的图像理解和代码转换能力。

图像辅助的填色卡通游戏

在此测试中,我们提供了一张待填色的卡通图片,要求 Gemini 创建一个填色游戏。

游戏需提供几种与卡通主题匹配的调色盘,用户选择颜色后,点击图片中的特定区域即可完成上色。

效果预览:g.co/gemini/shar…

Gemini 成功实现了核心的填色交互功能,并能根据图像内容初步推荐色彩方案,这对于快速原型验证具有一定的实用价值。

基于分镜图的角色行走动画

我们提供了一张包含角色完整行走动作分解图,要求 Gemini 首先将每个独立的动作帧进行精确裁剪,确保各裁剪片段尺寸一致且仅包含一个完整的人物主体。

随后,基于这些处理后的图像资源,生成一个 2D 角色行走动作的调试界面,用户可通过界面右下角的虚拟方向键控制角色移动。

效果预览链接:g.co/gemini/shar…

该测试不仅考察了模型生成代码的图像处理能力(如精确裁剪),也检验了其在游戏逻辑和用户交互方面的代码生成水平。Gemini 在此任务中的表现可圈可点。

经典游戏「坦克大战」的复刻挑战

这是一个我常用以评估 AI 编程平台能力的案例。此前,无论是 Bolt.new、V0 还是 Replit 等平台,在尝试一次性生成「坦克大战」这类相对复杂的游戏时,即便提供了详尽的规则描述,完成度也普遍不高。

因此,在测试 Gemini 2.5 Pro Preview 时,我最初并未抱过高期望。但其最终呈现的效果相当出色。

效果预览链接:g.co/gemini/shar…

仅提供了一段30多分钟游戏演示视频,Gemini 便能对游戏的核心机制有一番透彻的理解和实现能力,比如:

尽管生成结果中存在一些小 Bug(例如部分敌人单位可能原地卡顿),但这并不掩盖其整体表现的亮点。

考虑到模型是完全基于对视频内容的理解来构建游戏逻辑的,能达到这一成果已经足够令人感到惊奇。

总结

Gemini 2.5 Pro Preview 在编码能力上的提升,尤其是其“自然图像/视频到代码”的转换能力,无疑具有重要的里程碑意义。

传统软件开发流程中,从需求挖掘到最终产品交付,往往涉及冗长且易产生偏差的沟通与转换。

需求方需要将视觉构想转化为文字,辅以原型图,再由相关人员向开发团队转述。

开发者则需准确理解需求,并将其通过编程翻译成机器语言。

“自然图像/视频到代码”能力的出现,有望显著压缩这一流程。

用户可以直接提供视觉化参考,辅以简要描述,AI 即可辅助生成初始代码,从而提高开发效率,并减少信息传递中的损耗和误解。

不过,在肯定其进步的同时,我们也应保持理性。

毕竟,目前主流的对于模型编码能力的评测(包括今天这场亲测在内),都主要集中在单次代码生成的质量。

对于更复杂的、需要模型进行多轮交互、自我修正和迭代优化的半自主代理模式,模型是否依旧表现优越,仍有待进一步的观察和评估。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Pro 编码能力 AI编程 图像转代码
相关文章