谷歌发布了 Gemini 2.5 Pro 预览版(I/O 版),此次更新带来了更强大的编码能力!
在 WebDev Arena 排行榜中,Gemini 2.5 Pro Preview(05-06)首次登顶,超越了昔日霸主 Claude 3.7 Sonnet (20250219)!该榜单由第三方根据 Web 应用的视觉效果和功能完成度进行评分。
**
**
如何使用 Gemini 2.5 Pro Preview?
前往Google AI Studio
将模型切换为“gemini-2.5-pro-preview-05–06”,就可以体验了 (免费) 。
可以看到模型介绍中best for :
Coding
Reasoning
Multimodal understanding
我们来逐点解读:
1. 编码(Coding) :它不仅能生成更复杂、更优雅的代码片段,还能对现有代码库进行深度理解、重构和优化。
2. 推理(Reasoning): 不仅能写代码,更能“理解”代码背后的设计哲学和逻辑意图。在进行复杂的系统设计、架构选型,或者排查深层逻辑错误时,其推理能力能提供远超普通代码助手的洞察。
3. 多模态理解(Multimodal understanding) :Gemini 2.5 Pro进一步强化了对文本、图像、音频、视频甚至代码等多种信息模态的融合理解能力。它不再是孤立地处理每一种信息,而是能真正“看懂”、“听懂”并综合分析。
正式强大的推理和多模态理解能力双翼赋能,为其“最强编码LLM”的地位添砖加瓦。
Video-to-Code
让视觉直接转化为代码
这是Gemini 2.5 Pro多模态理解能力在编码领域最令人兴奋的应用之一!
什么是Video-to-Code?
简单来说,就是你给Gemini一段包含用户界面(UI)、交互动画或特定操作流程的视频,它能够“看懂”视频内容,并生成实现这些视觉效果和功能的代码。
先来实际测试一个图生代码的功能,我也没有强人所难,在CodePen上随机pick了一个真实可实现的插图让它实现:
原CodePen是css绘制的这个图片,一开始没有指定语言,Gemini 2.5Pro 用svg给我实现了一版:
虽然没有1比1复刻,但是这芝麻的质感似乎更好。
再让它用css给我实现:
还原多了。
实际场景应用
生成这些小玩意,都是玩具,让我们思考如果在实际工作中,真实的场景应该是怎么样的。
实际场景畅想
**
**
[场景] UI/UX设计师快速绘制了一个包含多个交互状态(如按钮悬停、点击弹窗、列表项拖拽排序)的App界面草图,或者录制了一段现有App中某个流畅交互的短视频。希望快速看到一个可交互的前端原型。
[输入]
- 一张包含UI元素和交互说明的手绘草图图片,或者一段演示UI交互的短视频。简短的文字指令:“用React和Tailwind CSS实现这个登录页面的交互效果,按钮点击后显示加载中,然后跳转。”
[Gemini 2.5 Pro 的魔法]
- 多模态理解(图像/视频): 精准识别草图中的UI组件(输入框、按钮、标签)及其布局,或视频中的交互序列和视觉变化。交互逻辑推断: 从草图标注或视频演示中理解元素的动态行为和状态转换。代码生成(前端): 结合指令,生成符合要求的React组件代码(JSX)、Tailwind CSS样式,以及处理交互逻辑的JavaScript/TypeScript代码。
[输出]
一个可以直接在浏览器中运行的、包含基本交互逻辑的前端代码项目。
设计师可以快速验证想法,开发者也能在此基础上继续完善。
实际场景实践
前段时间设想过一个记录宝宝成长记录的app,让galileo给我生成了一组高保真,现在就让Gemini 2.5Pro实操一下。
1. 一张包含UI元素和交互说明的图片
2. 简短的文字指令
用React和Tailwind CSS实现这个应用,用cdn形式引入react 和 Tailwind CSS,icon使用FontAwesome,最终在一个index.html展示,有页面跳转效果,有合理交互
生成的页面,交互都是合理的,页面如下:
整体布局和样式都是好的,细节需要再调整,可以说很还原了。
真的是所见即所得的极致体验!真正打通视觉创意到代码实现的“最后一公里”。设计师不再需要详细的标注,开发者也能从繁琐的UI复刻中解放出来。
开发者的新纪元已然开启!
喜欢的话可以关注公众号哦~