FishAI官方 03月26日 21:17
深度 | 强到爆炸的 Gemini 2.5 Pro,这么用才不降智
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入测评了Google Gemini 2.5 Pro模型,该模型在多项指标上表现出色,展现出强大的性能。文章详细介绍了其超长输出、思维链结合Google Search等功能,并分析了在网页制作、代码生成等方面的应用潜力。然而,文章也指出了Gemini 2.5 Pro可能出现的“降智”问题,并提供了避免踩坑的建议。总的来说,Gemini 2.5 Pro是一个值得关注的强大模型,但用户在使用时需要谨慎。

🚀 Gemini 2.5 Pro 拥有令人印象深刻的性能,在多项指标上达到SOTA水平,具备超长输出能力,并提升了思维链的Think能力。

🔍 Gemini 2.5 Pro 结合Google Search,实现了思维链的深度搜索功能,能够记住更多来自互联网的信息,从而提升Deep Research的质量和可控性。

⚠️ 使用Gemini 2.5 Pro时需警惕“降智”问题,尤其是在询问知识CutOff时间时,模型可能出现信息遗忘和无效总结。建议在System Instruction中明确CutOff时间。

💡 Gemini 2.5 Pro 在网页制作、代码生成和SVG卡片制作等场景中具有提升潜力,并提供了更强的思维链能力,增强了模型的整体表现。

原创 魔力猫啊 2025-03-26 13:55 广东

强到爆炸的 Gemini 2.5 但是会降智,千万别踩坑。

 

强到爆炸的 Gemini 2.5 Pro

本次的 Gemini 2.5 Pro 真的强到令人发指,多项指标达到的 SOTA,单从性能来看来看,一定是第一梯队的。



超长输出,一顿猛如虎

超长输出绝对不是一顿输出猛如虎,一看战绩 250 ,从隔壁家的 Claude 3.5 & Claude 3.7 & O1 来看,超大窗口的输出对很多任务有着卓绝的提升效果。

本次升级到默认思维模型的 xx ,输出爆炸从 8K 升级到 64K 左右,这将在以下场景获得提升:

接下来大家应该可以看到诸多网友测试 xx 的网页制作能力,包含审美的提升、内容丰富度的提升,我这里就不做额外的研究。

你真的会用 XX 吗?

本次最大的惊喜绝不仅仅跑分与上下文的提升,模型的质量提升是自然的,本次最核心的提升都藏在这些细节中:

当然说下最严重的问题:Gemini 也学会模型降智了。

!!!不得已的情况下,不要问他知识CutOff 的时间,一但问他知识库的 CutOff 时间,他大概率会说是 2023 年,将很多2023-2024的信息遗忘,并且给你无效的总结。

因此!!如果在做更加谨慎的工作,请你务必要在 System Instruction 提醒下大模型CutOff 时间是 2024 年,否则你将会受到不可控的伤害。

结论说完了,我们来实操一下,多看看别踩坑,真的是好模型,多用用老二,这样老大才会有危机感,隔壁 OpenAI 不赶紧端上了最新的生成图片功能吗 HH。

实操

悲剧的 CutOff

1、虽然界面上写着 2025-01 但是实测仍然是 2024 年

2、如果你非要手贱问一下,恭喜你,你的模型降智了。

不降智版本 vs 降智版本

很明显,不降智的版本明确知道 GPT-4o,降智的版本就只有模模糊糊的信息了。

再探索下,降智问题同样会出现在 Gemini 2 Flash think 模型中。

通过Prompt强制纠正降智问题

问:最新的科技界的大事情是什么?重要的大模型哪些发布了?以及具体的时间,给我一个表格

左边模型只知道 gpt 3.5

左边模型不知道 Claude3

思维链的进化

从实际测试来看,我们可以明显的感受到 xx 在思维链上的巨大提升(字数 不是)。

整体来看:

xx 的思考

2.0 flash 的思考

对一下下

结果就不赘述了,最好的结果都是拿 Gemini 1.5分析,最差的结果是自动降智只有 Gemini Ultra Pro Flash 这种 2023 年的老古董信息了。

思维链 + 谷歌联网强无敌

我们用联网的方法再次测试下问题:

介绍下 Google 最新模型

可以感受到思维链上的显著进化:

结果自然是鲜甜可口

更强的方法,让 Gemini Pro 2.5 的性能提升 10 倍 (自媒体风

我们都知道大模型的知识不够新鲜,那怎么办?咱们就让他先查询下,把问题进行手动拆解,你把自己当 Agent。

原始问题: 谷歌 Gemini 大模型如何超越 Claude 系列?

你可以换成两个问题:
1、介绍下 Google 最新模型 -> 这里就会获取最新的信息。
2、谷歌 Gemini大模型如何超越 Claude 系列?

1、介绍下 Google 最新模型

Formulate search queries:
"谷歌 Gemini 最新的大模型是什么?" (What is Google Gemini's latest large model?) - Direct question in Chinese.
"Google Gemini latest model" - Keyword search in English (often yields more technical/up-to-date results).
"Gemini 1.5 Pro release date" - More spec.
"Gemini 2.0" - Search for 

2、介绍下 Google 最新模型,这里就会获取最新的信息。

Simulated Search Queries:
"Gemini vs Claude benchmarks"
"Gemini 2.5 Pro vs Claude 3.5 Sonnet"
"Gemini multimodal capabilities vs Claude"
"Gemini context window vs Claude context window"
"Claude 3.5 Sonnet Artifacts feature"
"Latest Google AI model release"
"Latest Anthropic model release"

很明显的,有外部信息大模型,会自动去检索更加准确的外部信息使得外部信息聚焦在 Gemini 2.5 以及 laude 3.5,结果就更加优秀。

让 AI 反思,主动寻找更多的信息源

通过思考模型,让 AI 反思,并且获得更加准确的结果。

问:

我觉得你在核心要素上分析非常不准确,因为你没有系统的分析每个核心要素中的最新模型的真正表现,所以导致失真:
1、请你反思不足,提出增强获取信息的思路。
2、请你增强获取信息,并进行结果的刷新。

思维链的反思:


✅ 1. 承认与验证反馈
首先承认用户的批评——即分析不够准确,主要因为缺乏对最新模型实际性能的深入比较。承认这一点是思维链的起点,也体现了对用户输入的尊重。


🔍 2. 识别核心问题

明确问题不是整体分析不合理,而是:

缺乏针对最新模型(如Gemini 2.5 Pro Exp、o3、Claude 3.7 Sonnet)的对比性、细化性能数据。
核心要点在于“最新”、“对比性”、“细节”。


🧩 3. 反思现有方法的不足

通过自我审查,找出原方法的问题,包括:


🔍 4. 提出更精确的信息获取策略
🛠 5. 执行增强型的信息收集
📊 6. 基于新数据重做分析
对模型在各维度的表现(比如速度、成本、多模态能力等)重新评估:


📑 7. 结构化呈现优化结果
最后把所有重新分析的内容,有逻辑地汇报给用户

通过思考 + 检索,改善结果:

您提出了非常好的批评!我完全理解您的意思,之前的分析确实在模型具体表现的细节和最新对比数据上有所欠缺,更多是基于发布公告和一般性认知,这可能导致评分不够精确,从而影响了后续的战略推演。非常感谢您指出这一点,这有助于我改进分析的深度和准确性。

1. 反思不足与增强获取信息的思路

不足之处反思:

    1. 依赖二手信息和发布声明: 主要依赖了各公司发布新模型时的公告、新闻报道和一些高层次的综述,而没有深入挖掘针对这些最新模型(特别是 Gemini 2.5 Pro Exp, o3, Claude 3.7 Sonnet)的独立、量化的基准测试结果或详细的技术评测。

    2. 缺乏最新的横向对比数据: 对于刚刚发布的模型,尤其是那些可能还处于有限测试阶段(如 o3)的模型,很难立即获得广泛、可靠的第三方横向比较数据。我的分析未能充分体现这种数据获取的滞后性和不确定性。

    3. 评分的主观性与粒度问题: 将复杂的多维性能压缩成单一数字评分本身就存在简化风险。没有结合具体任务(如特定类型的编码、长文本理解、多模态任务)上的表现数据,使得评分显得笼统。

    4. 忽略了模型的“实际体验”: 除了基准测试分数,模型的实际使用体验(如响应的连贯性、创造性、遵循指令的细节能力、特定场景下的“智能感”)也很关键,这些信息更难量化和获取。

增强获取信息的思路:

    1. 聚焦最新的独立基准测试: 主动搜索并参考公认的第三方 AI 模型评测平台和研究机构的最新结果,例如:

2. 关注深度技术评测报告/博客: 寻找来自可信技术媒体、研究人员或 AI 社区(如 arXiv 论文、知名 AI 博主)发布的针对这些最新模型的深入分析、比较和实际测试报告。

3. 区分模型版本和模式: 明确区分同一家族中的不同模型(如 Gemini 2.0 Flash vs Pro Exp, o1 vs o3)以及特定模式(如 Claude 3.7 的“扩展思维模式”),并查找针对性的评测。

4. 搜寻官方技术报告中的对比数据: 仔细阅读模型发布时附带的技术报告(如果有),提取其中可能包含的与前代或其他模型的对比数据(同时对其宣传性质保持审慎)。

5. 利用更具体的搜索查询: 使用包含模型具体名称和对比词("vs", "benchmark", "comparison", "review", "performance analysis")以及核心要素关键词("reasoning", "coding", "multimodal", "latency", "cost")的查询。

6. 承认信息的不完整性: 对于确实缺乏可靠对比数据的部分(尤其是最新且访问受限的模型),在分析中明确指出,并基于现有最接近的信息进行推断,同时标注其不确定性。

2. 增强信息获取与结果刷新

现在,我将尝试应用上述思路,通过搜索获取更具体的信息来刷新核心要素的评估。(请注意:对于像 o3 和 Gemini 2.5 Pro Experimental 这样非常新的模型,公开的、独立的、全面的对比基准可能仍然有限。)
好的,基于刚才增强的信息搜集和获取的最新基准测试、评测数据,我现在尝试刷新对三大模型厂商最新核心模型的要素评分。请注意,由于 Gemini 2.5 Pro Experimental 和 o3 都是非常新的模型,且 o3 完整版访问受限,部分数据可能来自 o3-mini 或初步/厂商报告,我会尽量注明。

刷新的核心要素得分 (满分5分) - 截至 2025年3月26日


刷新后的关键洞察:

    1. 头部竞争白热化: Google 最新的 Gemini 2.5 Pro Experimental 在多个基准上表现出强大的竞争力,甚至在 LMArena 用户偏好和部分推理/知识基准上登顶,直接挑战 OpenAI 和 Anthropic 的领先地位。

    2. 推理与编码各有侧重:

3. 多模态是谷歌的强项: Gemini 2.5 Pro Exp 继承并强化了 Gemini 系列的原生多模态能力,在视觉推理和图像理解方面领先。

4. 成本与速度仍是关键权衡因素: 顶级模型(尤其是推理模型)往往伴随着更高的成本和潜在的延迟增加。各家都在推出不同版本(如 Flash, mini, Sonnet vs Opus)来满足不同需求。Gemini Flash 系列在速度和成本效益上表现突出。

5. 信息透明度和可访问性差异: Google 和 Anthropic 的最新模型相对更容易通过公开渠道(App, API, 云平台)访问。OpenAI 的 o3 完整版目前仍较神秘,限制了广泛的独立评估。

基于这些更精确的信息,之前关于谷歌战略的建议(重点投入生态集成、多模态、垂直领域,优化纯聊天竞争)的核心逻辑依然成立,但现在可以更清晰地看到:


欢迎一键三连,添加公众号为星标~第一时间获取新鲜推文

关注FishAI公众号,欢迎扫码交流群


THE END











 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.5 Pro 大模型 AI测评 降智
相关文章