谷歌推最强Gemini推理模型：月费1800，已拿奥赛金牌，性能超OpenAI o3和Grok 4

36氪 - 科技频道前天 09:11

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

谷歌近日推出了其最强的推理模型Gemini 2.5 Deep Think，该模型是参加国际数学奥林匹克（IMO）并取得金牌的模型的变体。新版本在日常使用中速度更快、更易用，并在多项基准测试中表现出色，优于OpenAI o3、Grok 4等模型。Deep Think通过“思考技巧”提供更深入、更具创意的回答，支持多模态输入和超长上下文窗口，并利用并行思维技术和延长推理时间来解决复杂问题。它在迭代开发、科学数学发现和算法开发等方面展现出强大潜力。目前，该模型仅对Google AI Ultra订阅用户开放，并计划通过API向开发者和企业进行测试。

🎯 **Gemini 2.5 Deep Think的卓越表现**：谷歌最新发布的Gemini 2.5 Deep Think模型，在国际数学奥林匹克（IMO）竞赛中展现出惊人实力，其变体模型能够解答IMO 6道题目中的5道，总分达到金牌水平。虽然在复杂数学问题推理上需要几小时，但新版本在日常使用中速度更快、更易用，并在2025年IMO基准测试中仍能达到铜牌水平。

🚀 **技术创新与优势**：该模型在LiveCodeBench V6和Humanity's Last Exam等具有挑战性的编程、科学、知识和推理基准测试中，超越了OpenAI o3、Grok 4等未集成工具的模型，展现出最佳性能。其核心优势在于利用谷歌的“并行思维”技术，能够同时生成和思考多个想法，并不断优化整合，以获得最优答案，同时通过延长“思考时间”来探索更多可能性。

💡 **多模态支持与应用场景**：Gemini 2.5 Deep Think支持文本、图像、音频、视频等多种输入格式，并拥有1M tokens的超长上下文窗口，输出长度高达192K tokens。它能够辅助数学家测试猜想，提高Web开发任务的美观性，并在需要创造力、战略规划和逐步改进的问题上表现出色，如迭代开发设计、科学数学发现以及算法开发等。

💰 **付费模式与未来规划**：目前，Deep Think模型仅对最高级别的Google AI Ultra订阅用户开放，月订阅费用为249.99美元。谷歌计划通过Gemini API将该模型（包括是否使用工具的版本）向一组受信任的测试人员发布，以深入了解其对开发者和企业用户的可用性，并在此基础上进行模型优化。

🔬 **IMO金牌模型的进一步探索**：谷歌正计划进一步测试达到IMO金牌水平的Deep Think模型，并将其分享给一小部分数学家和学者，以期在辅助研究方面发挥作用。通过收集这些专业用户的反馈，谷歌将致力于完善模型的未来版本，使其在科学探索领域发挥更大的价值。

作者 | ZeR0

编辑 | 漠影

智东西8月2日报道，昨夜，谷歌推出其迄今最强推理模型Gemini 2.5 Deep Think。

这是最近在今年国际数学奥林匹克（IMO）上“拿金牌”的模型的变体。近期高级版Gemini Deep Think完美解答了IMO 6道题目中的5道，总分35分（满分42分），达到金牌水平。

该模型需要几个小时才能推理出复杂的数学问题。新发布的版本在日常使用中速度更快、更易用，根据内部评估，在2025年IMO基准测试中仍达到铜牌水平。

谷歌在今年5月的I/O开发者大会上首次预览了Gemini 2.5 Deep Think。新版本进行了“重大改进”。在具有挑战性的编程、科学、知识、推理基准测试中，与OpenAI o3、Grok 4等其他不使用工具的模型相比，Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity's Last Exam均取得最佳性能。

Gemini app中的Deep Think模型，使用思考技巧来提供更详细、更有创意和更周到的回答，甚至可以帮助数学家来测试数学猜想，还能提高Web开发任务的美观性。

Deep Think支持文本、图像、音频、视频等输入和1M tokens上下文窗口，输出长度为192K tokens。

其工作原理是利用谷歌的并行思维技术，能同时生成多个想法，并同时进行思考，甚至随着时间的推移不断修改或整合不同的想法，最终得出最佳答案。

此外，通过延长推理时间或“思考时间”，谷歌给了Gemini更多的时间来探索不同的假设，并为复杂问题找到创造性的解决方案。

谷歌还开发了新颖的强化学习技术，鼓励模型利用这些扩展的推理路径，从而使Deep Think随时间推移成为更好、更直观的问题解决者。

Deep Think可以帮助人们解决需要创造力、战略规划和逐步改进的问题，例如：

迭代开发和设计：在需要逐块构建复杂事物的任务上的表现出色，比如可以提高网络开发任务的美学和功能。

科学和数学发现：可推理出高度复杂的问题，通过复杂的科学文献帮助制定和探索数学猜想或推理，可能加速发现之路。

算法开发和代码：在棘手的编码问题上特别出色，其中问题制定和仔细考虑权衡和时间复杂性是最重要的。

目前仅有最高级别的Google AI Ultra订阅者可选用“Deep Think”，每月订阅费为249.99美元（约合人民币1803元）。

Deep Think自动与代码执行和谷歌搜索等工具配合使用，并能产生更长的响应。

同时，达到IMO金牌水平的Deep Think模型将进一步测试，并向一小部分数学家和学者分享，用于辅助研究。谷歌计划利用这些反馈来完善该模型的未来版本。

谷歌还正在努力在未来几周内通过Gemini API向一组受信任的测试人员发布带和不带工具的Deep Think，以更好地了解其对开发者和企业用例的可用性。

本文来自微信公众号 “智东西”（ID：zhidxcom），作者：ZeR0，36氪经授权发布。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签