36氪 - 科技频道 03月26日
谷歌史上最强推理模型全面屠榜,击败DeepSeek断层第一,“人类最后考试”暴碾OpenAI,免费可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌推出了新一代思考模型Gemini 2.5 Pro,该模型在多项基准测试中表现优异,超越了OpenAI o3-mini、Claude 3.7 Sonnet等模型。尤其在Humanity's Last Exam等需要高级推理能力的测试中,Gemini 2.5 Pro取得了显著的提升。此外,新模型在编程、数学和科学等领域也展现出强大的能力,支持100万tokens上下文窗口,并将很快扩展至200万tokens。谷歌还展示了Gemini 2.5 Pro在编程方面的应用,例如生成互动式图表和游戏。这款模型已上线谷歌AI Studio平台,并将在Vertex AI上线,未来还将推出定价方案。

🥇 Gemini 2.5 Pro在多项基准测试中表现出色,尤其是在衡量人类偏好的大模型竞技场中取得领先,并在Humanity's Last Exam等高级推理测试中,相对于OpenAI o3-mini有显著提升。

💻 Gemini 2.5 Pro具备强大的编程能力,能够根据指令生成互动式图表、创建美观的Web应用和游戏,并擅长代码转换与编辑任务,展示了其在编程领域的广泛应用。

🧠 Gemini 2.5 Pro支持100万tokens的上下文窗口,很快将扩展至200万tokens,使其能够处理海量数据集,并解决来自文本、音频、图像、视频等多源信息的复杂问题。

谷歌发布新一代思考模型,斩获多项基准测试冠军。

智东西3月26日报道,今天,谷歌发布了Gemini 2.5思考模型家族的第一个成员——Gemini 2.5 Pro实验版本。这一模型在多项基准测试中全面超越OpenAI o3-mini,Claude 3.7 Sonnet、Grok-3和DeepSeek-R1,一经亮相便在大模型竞技场获得1443分,凭借39分的大幅优势,获得断层第一

不过,谷歌并未放出Gemini 2.5 Pro与OpenAI o1、OpenAI o1-Pro和OpenAI o3等模型在基准测试中的对比。此外,在智能体编程评估基准SWE-bench verified上,其得分要低于Claude 3.7 Sonnet

Gemini 2.5 Pro除了在衡量人类偏好的大模型竞技场领先之外,还在常见的编程、数学和科学基准测试中处于领先地位,包括Humanity’s Last Exam(人类最后考试)这一难度超高的基准测试,与OpenAI o3-mini相比,其得分提升了近5%,提升比例达34%。这款模型现已支持100万tokens上下文窗口,并将很快拓展至200万tokens。

目前,Gemini 2.5 Pro已上线面向开发者的谷歌AI Studio平台,并很快会在谷歌的在线AI开发平台Vertex AI上线。普通用户若要体验这款新模型,需要具备Gemini Advanced订阅账号。

未来几周,谷歌还将推出模型的定价,允许用户使用具有更高速率的2.5 Pro进行大规模商用。

博客地址:

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro

体验链接:

https://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25

01.谷歌大秀新模型编程能力,一句话生成互动式图表

Gemini 2.5 Pro发布后,谷歌DeepMind在其YouTube账号上发布了多个演示视频,主要展现了其编程能力与其他领域能力的结合。

例如,Gemini 2.5 Pro可以根据用户提出的简单指令,在p5.js中探索曼德博集合。这要求大模型具备较好的数学、编程和可视化能力。最终,较好的可视化效果应包括清晰的边缘、平滑的颜色过渡等。

Gemini 2.5 Pro还能根据提示词,创建互动式的图表。下方案例中,它便将过去几十年的人均GDP数据与健康数据结合,在一张图表内呈现了数百个国家过去几十年的变化,从而揭示财富与健康之间的关系。

对于一些更为日常的任务,如游戏开发,Gemini 2.5 Pro也能在指定特定编程语言的情况下,给出兼具审美和可玩性的游戏。下方的这一恐龙小游戏与Chrome内自带的游戏画风颇为接近。

02.获得多项SOTA成绩,将支持200万tokens长上下文

谷歌称,Gemini 2.5 Pro在一系列需要高级推理能力的基准测试中获得了最佳表现,包括GPQA和AIME 2025。参与测试时,Gemini 2.5 Pro没有使用多数投票等token消耗量巨大的测试时计算技巧。

Gemini 2.5 Pro在Humanity's Last Exam中获得了18.8%的最佳得分,且并未调用工具。这一测试集由数百位人类专家设计,包含了人类最前沿深奥的知识和推理。

高级编程能力方面,Gemini 2.5 Pro在2.0版本的基础上实现了较大提升,新模型擅长创建美观的Web应用和智能体编程方面表现突出,同时擅长代码转换与编辑任务。

在行业标准的智能体编程评估基准SWE-bench verified上,Gemini 2.5 Pro采用定制智能体配置取得了63.8%的得分,不过这一得分仍然低于Claude 3.7 Sonnet。

与Gemini模型家族的其他成员一样,Gemini 2.5 Pro具备原生多模态处理能力和超长上下文窗口。目前,其支持100万tokens的上下文窗口,并很快将升级至200万tokens,让该模型能够解析海量数据集,处理来自文本、音频、图像、视频乃至完整代码库等多元信息源的复杂问题。

03.结语:编程成为AI玩家角力新前线

本次Gemini 2.5 Pro的发布,与昨日DeepSeek-V3新版本的发布相隔不到30个小时。与DeepSeek-V3一样,谷歌也选择提升了Gemini在编程、审美、数学等方面的能力,并将其作为模型的亮点重点展示,放出的6个演示视频均为AI编程相关。

AI编程能力的提升,既能给普通用户带来直观的感知变化,也有望在生产场景中带来明显的效益提升。这一领域或将在未来很长一段时间内,成为大模型厂商们竞相角力的方向。

本文来自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:心缘,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Pro 大模型 人工智能 编程
相关文章