36氪 - 科技频道 前天 09:11
谷歌推最强Gemini推理模型:月费1800,已拿奥赛金牌,性能超OpenAI o3和Grok 4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌近日推出了其最强的推理模型Gemini 2.5 Deep Think,该模型是参加国际数学奥林匹克(IMO)并取得金牌的模型的变体。新版本在日常使用中速度更快、更易用,并在多项基准测试中表现出色,优于OpenAI o3、Grok 4等模型。Deep Think通过“思考技巧”提供更深入、更具创意的回答,支持多模态输入和超长上下文窗口,并利用并行思维技术和延长推理时间来解决复杂问题。它在迭代开发、科学数学发现和算法开发等方面展现出强大潜力。目前,该模型仅对Google AI Ultra订阅用户开放,并计划通过API向开发者和企业进行测试。

🎯 **Gemini 2.5 Deep Think的卓越表现**:谷歌最新发布的Gemini 2.5 Deep Think模型,在国际数学奥林匹克(IMO)竞赛中展现出惊人实力,其变体模型能够解答IMO 6道题目中的5道,总分达到金牌水平。虽然在复杂数学问题推理上需要几小时,但新版本在日常使用中速度更快、更易用,并在2025年IMO基准测试中仍能达到铜牌水平。

🚀 **技术创新与优势**:该模型在LiveCodeBench V6和Humanity's Last Exam等具有挑战性的编程、科学、知识和推理基准测试中,超越了OpenAI o3、Grok 4等未集成工具的模型,展现出最佳性能。其核心优势在于利用谷歌的“并行思维”技术,能够同时生成和思考多个想法,并不断优化整合,以获得最优答案,同时通过延长“思考时间”来探索更多可能性。

💡 **多模态支持与应用场景**:Gemini 2.5 Deep Think支持文本、图像、音频、视频等多种输入格式,并拥有1M tokens的超长上下文窗口,输出长度高达192K tokens。它能够辅助数学家测试猜想,提高Web开发任务的美观性,并在需要创造力、战略规划和逐步改进的问题上表现出色,如迭代开发设计、科学数学发现以及算法开发等。

💰 **付费模式与未来规划**:目前,Deep Think模型仅对最高级别的Google AI Ultra订阅用户开放,月订阅费用为249.99美元。谷歌计划通过Gemini API将该模型(包括是否使用工具的版本)向一组受信任的测试人员发布,以深入了解其对开发者和企业用户的可用性,并在此基础上进行模型优化。

🔬 **IMO金牌模型的进一步探索**:谷歌正计划进一步测试达到IMO金牌水平的Deep Think模型,并将其分享给一小部分数学家和学者,以期在辅助研究方面发挥作用。通过收集这些专业用户的反馈,谷歌将致力于完善模型的未来版本,使其在科学探索领域发挥更大的价值。

作者 |   ZeR0 

编辑 |   漠影 

智东西8月2日报道,昨夜,谷歌推出其迄今最强推理模型Gemini 2.5 Deep Think。 

这是最近在今年国际数学奥林匹克(IMO)上“拿金牌”的模型的变体。近期高级版Gemini Deep Think完美解答了IMO 6道题目中的5道,总分35分(满分42分),达到金牌水平。 

该模型需要几个小时才能推理出复杂的数学问题。新发布的版本在日常使用中速度更快、更易用,根据内部评估,在2025年IMO基准测试中仍达到铜牌水平。 

谷歌在今年5月的I/O开发者大会上首次预览了Gemini 2.5 Deep Think。新版本进行了“重大改进”。在具有挑战性的编程、科学、知识、推理基准测试中,与OpenAI o3、Grok 4等其他不使用工具的模型相比,Gemini 2.5 Deep Think在LiveCodeBench V6和Humanity's Last Exam均取得最佳性能。 

Gemini app中的Deep Think模型,使用思考技巧来提供更详细、更有创意和更周到的回答,甚至可以帮助数学家来测试数学猜想,还能提高Web开发任务的美观性。 

Deep Think支持文本、图像、音频、视频等输入和1M tokens上下文窗口,输出长度为192K tokens。 

其工作原理是利用谷歌的并行思维技术,能同时生成多个想法,并同时进行思考,甚至随着时间的推移不断修改或整合不同的想法,最终得出最佳答案。 

此外,通过延长推理时间或“思考时间”,谷歌给了Gemini更多的时间来探索不同的假设,并为复杂问题找到创造性的解决方案。 

谷歌还开发了新颖的强化学习技术,鼓励模型利用这些扩展的推理路径,从而使Deep Think随时间推移成为更好、更直观的问题解决者。 

Deep Think可以帮助人们解决需要创造力、战略规划和逐步改进的问题,例如: 

迭代开发和设计:在需要逐块构建复杂事物的任务上的表现出色,比如可以提高网络开发任务的美学和功能。

科学和数学发现:可推理出高度复杂的问题,通过复杂的科学文献帮助制定和探索数学猜想或推理,可能加速发现之路。

算法开发和代码:在棘手的编码问题上特别出色,其中问题制定和仔细考虑权衡和时间复杂性是最重要的。

目前仅有最高级别的Google AI Ultra订阅者可选用“Deep Think”,每月订阅费为249.99美元(约合人民币1803元)。 

Deep Think自动与代码执行和谷歌搜索等工具配合使用,并能产生更长的响应。 

同时,达到IMO金牌水平的Deep Think模型将进一步测试,并向一小部分数学家和学者分享,用于辅助研究。谷歌计划利用这些反馈来完善该模型的未来版本。 

谷歌还正在努力在未来几周内通过Gemini API向一组受信任的测试人员发布带和不带工具的Deep Think,以更好地了解其对开发者和企业用例的可用性。 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:ZeR0,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Deep Think 谷歌AI 人工智能 推理模型 国际数学奥林匹克
相关文章