原创 魔力猫啊 2025-03-26 13:55 广东
强到爆炸的 Gemini 2.5 但是会降智,千万别踩坑。
强到爆炸的 Gemini 2.5 Pro
本次的 Gemini 2.5 Pro 真的强到令人发指,多项指标达到的 SOTA,单从性能来看来看,一定是第一梯队的。
超长输出,一顿猛如虎
超长输出绝对不是一顿输出猛如虎,一看战绩 250 ,从隔壁家的 Claude 3.5 & Claude 3.7 & O1 来看,超大窗口的输出对很多任务有着卓绝的提升效果。
本次升级到默认思维模型的 xx ,输出爆炸从 8K 升级到 64K 左右,这将在以下场景获得提升:
• 单次生成的代码质量。
• 一次性的翻译工作。
• 把文字转成动态的网页能力。
• SVG 卡片制作等。
接下来大家应该可以看到诸多网友测试 xx 的网页制作能力,包含审美的提升、内容丰富度的提升,我这里就不做额外的研究。
你真的会用 XX 吗?
本次最大的惊喜绝不仅仅跑分与上下文的提升,模型的质量提升是自然的,本次最核心的提升都藏在这些细节中:
• 思维链 Think 能力的提升,
• 思维链结合结合 Google Search,可以说每一次对话都能用于基础的 Deep Search 功能,光听这几句话描述,大家会感觉不就是个联网搜索吗,现在谁没个联网搜索,别在 AI 届混了。 实则不然,如果你仔细研究下,你会发现他的 Google Search 的调用是在他的思维链中提前进行预先规划的,基于预先规划的结果再进行分析与输出。
• 思维链结合结合 Google Search + 超长上下文,这代表着大模型能够更多的记住来自互联网的信息,服务于你的后续任务,如果说 各家 AI 的 DeepResearch是一个随机的不可控的结果,那么 xx 所构建的能力下,就是一个可控的更可信的 Deep Research,而你拥有 100% 的控制权,且能及时纠错。
当然说下最严重的问题:Gemini 也学会模型降智了。
!!!不得已的情况下,不要问他知识CutOff 的时间,一但问他知识库的 CutOff 时间,他大概率会说是 2023 年,将很多2023-2024的信息遗忘,并且给你无效的总结。
因此!!如果在做更加谨慎的工作,请你务必要在 System Instruction 提醒下大模型CutOff 时间是 2024 年,否则你将会受到不可控的伤害。
结论说完了,我们来实操一下,多看看别踩坑,真的是好模型,多用用老二,这样老大才会有危机感,隔壁 OpenAI 不赶紧端上了最新的生成图片功能吗 HH。
实操
悲剧的 CutOff
1、虽然界面上写着 2025-01 但是实测仍然是 2024 年2、如果你非要手贱问一下,恭喜你,你的模型降智了。
不降智版本 vs 降智版本
很明显,不降智的版本明确知道 GPT-4o,降智的版本就只有模模糊糊的信息了。
再探索下,降智问题同样会出现在 Gemini 2 Flash think 模型中。通过Prompt强制纠正降智问题
问:最新的科技界的大事情是什么?重要的大模型哪些发布了?以及具体的时间,给我一个表格
左边模型只知道 gpt 3.5
左边模型不知道 Claude3
思维链的进化
从实际测试来看,我们可以明显的感受到 xx 在思维链上的巨大提升(字数 不是)。
整体来看:
• Gemini 2.5 Pro 采用层次化、递归的思考结构,而 2.0 Flash 使用简单的线性结构。
• Gemini 2.5 Pro 能够将问题拆解为多层次的子问题,并进行深入分析;2.0 Flash 的拆解较为简单,缺乏深度。
• Gemini 2.5 Pro 从6个以上维度进行思考,包括核心请求、模型类型、时间线、功能特点、应用场景和技术趋势;2.0 Flash 仅从3-4个基本维度思考。
• Gemini 2.5 Pro 的思考深度达到5-6层,包含详细的子步骤和微观细节;2.0 Flash 仅有2-3层思考深度。
xx 的思考
2.0 flash 的思考
对一下下
结果就不赘述了,最好的结果都是拿 Gemini 1.5分析,最差的结果是自动降智只有 Gemini Ultra Pro Flash 这种 2023 年的老古董信息了。
思维链 + 谷歌联网强无敌
我们用联网的方法再次测试下问题:
介绍下 Google 最新模型
可以感受到思维链上的显著进化:
结果自然是鲜甜可口
更强的方法,让 Gemini Pro 2.5 的性能提升 10 倍 (自媒体风
我们都知道大模型的知识不够新鲜,那怎么办?咱们就让他先查询下,把问题进行手动拆解,你把自己当 Agent。
原始问题: 谷歌 Gemini 大模型如何超越 Claude 系列?
你可以换成两个问题:
1、介绍下 Google 最新模型 -> 这里就会获取最新的信息。
2、谷歌 Gemini大模型如何超越 Claude 系列?
1、介绍下 Google 最新模型
Formulate search queries:
"谷歌 Gemini 最新的大模型是什么?" (What is Google Gemini's latest large model?) - Direct question in Chinese.
"Google Gemini latest model" - Keyword search in English (often yields more technical/up-to-date results).
"Gemini 1.5 Pro release date" - More spec.
"Gemini 2.0" - Search for
2、介绍下 Google 最新模型,这里就会获取最新的信息。
Simulated Search Queries:
"Gemini vs Claude benchmarks"
"Gemini 2.5 Pro vs Claude 3.5 Sonnet"
"Gemini multimodal capabilities vs Claude"
"Gemini context window vs Claude context window"
"Claude 3.5 Sonnet Artifacts feature"
"Latest Google AI model release"
"Latest Anthropic model release"
很明显的,有外部信息大模型,会自动去检索更加准确的外部信息使得外部信息聚焦在 Gemini 2.5 以及 laude 3.5,结果就更加优秀。
让 AI 反思,主动寻找更多的信息源
通过思考模型,让 AI 反思,并且获得更加准确的结果。
问:
我觉得你在核心要素上分析非常不准确,因为你没有系统的分析每个核心要素中的最新模型的真正表现,所以导致失真:
1、请你反思不足,提出增强获取信息的思路。
2、请你增强获取信息,并进行结果的刷新。
思维链的反思:
✅ 1. 承认与验证反馈
首先承认用户的批评——即分析不够准确,主要因为缺乏对最新模型实际性能的深入比较。承认这一点是思维链的起点,也体现了对用户输入的尊重。
🔍 2. 识别核心问题
明确问题不是整体分析不合理,而是:
缺乏针对最新模型(如Gemini 2.5 Pro Exp、o3、Claude 3.7 Sonnet)的对比性、细化性能数据。
核心要点在于“最新”、“对比性”、“细节”。
🧩 3. 反思现有方法的不足
通过自我审查,找出原方法的问题,包括:
• 太依赖厂商宣传和浅层信息;
• 缺乏具体、独立的性能测试数据;
• 忽略了新模型发布后的数据滞后性;
• 对打分方式过于主观。
🔍 4. 提出更精确的信息获取策略
🛠 5. 执行增强型的信息收集
📊 6. 基于新数据重做分析
对模型在各维度的表现(比如速度、成本、多模态能力等)重新评估:
• 采用更有依据的打分;
• 在信息不足时说明情况;
• 加入“相对优势”而非只靠数字打分;
• 明确每个结论的数据来源。
📑 7. 结构化呈现优化结果
最后把所有重新分析的内容,有逻辑地汇报给用户:
• 开头:承认问题,接受反馈;
• 中间:说明信息搜集方式的变化;
• 核心:呈现更新后的分析结果和改进理由;
• 结尾:说明尚存在的不确定性,确保分析透明度。
通过思考 + 检索,改善结果:
您提出了非常好的批评!我完全理解您的意思,之前的分析确实在模型具体表现的细节和最新对比数据上有所欠缺,更多是基于发布公告和一般性认知,这可能导致评分不够精确,从而影响了后续的战略推演。非常感谢您指出这一点,这有助于我改进分析的深度和准确性。
1. 反思不足与增强获取信息的思路
不足之处反思:
1. 依赖二手信息和发布声明: 主要依赖了各公司发布新模型时的公告、新闻报道和一些高层次的综述,而没有深入挖掘针对这些最新模型(特别是 Gemini 2.5 Pro Exp, o3, Claude 3.7 Sonnet)的独立、量化的基准测试结果或详细的技术评测。
2. 缺乏最新的横向对比数据: 对于刚刚发布的模型,尤其是那些可能还处于有限测试阶段(如 o3)的模型,很难立即获得广泛、可靠的第三方横向比较数据。我的分析未能充分体现这种数据获取的滞后性和不确定性。
3. 评分的主观性与粒度问题: 将复杂的多维性能压缩成单一数字评分本身就存在简化风险。没有结合具体任务(如特定类型的编码、长文本理解、多模态任务)上的表现数据,使得评分显得笼统。
4. 忽略了模型的“实际体验”: 除了基准测试分数,模型的实际使用体验(如响应的连贯性、创造性、遵循指令的细节能力、特定场景下的“智能感”)也很关键,这些信息更难量化和获取。
增强获取信息的思路:
1. 聚焦最新的独立基准测试: 主动搜索并参考公认的第三方 AI 模型评测平台和研究机构的最新结果,例如:
• LMSys Chatbot Arena Leaderboard: 提供基于用户匿名投票的众包模型排名,能反映用户偏好和模型的综合对话能力。
• Stanford HELM (Holistic Evaluation of Language Models): 提供跨多个指标和场景的全面评估。
• 特定任务基准 (如 HumanEval for Code, MMLU for Knowledge, AlpacaEval): 查找专门针对这些最新模型在特定能力(编码、知识、指令遵循等)上的最新测试结果。
2. 关注深度技术评测报告/博客: 寻找来自可信技术媒体、研究人员或 AI 社区(如 arXiv 论文、知名 AI 博主)发布的针对这些最新模型的深入分析、比较和实际测试报告。
3. 区分模型版本和模式: 明确区分同一家族中的不同模型(如 Gemini 2.0 Flash vs Pro Exp, o1 vs o3)以及特定模式(如 Claude 3.7 的“扩展思维模式”),并查找针对性的评测。
4. 搜寻官方技术报告中的对比数据: 仔细阅读模型发布时附带的技术报告(如果有),提取其中可能包含的与前代或其他模型的对比数据(同时对其宣传性质保持审慎)。
5. 利用更具体的搜索查询: 使用包含模型具体名称和对比词("vs", "benchmark", "comparison", "review", "performance analysis")以及核心要素关键词("reasoning", "coding", "multimodal", "latency", "cost")的查询。
6. 承认信息的不完整性: 对于确实缺乏可靠对比数据的部分(尤其是最新且访问受限的模型),在分析中明确指出,并基于现有最接近的信息进行推断,同时标注其不确定性。
2. 增强信息获取与结果刷新
现在,我将尝试应用上述思路,通过搜索获取更具体的信息来刷新核心要素的评估。(请注意:对于像 o3 和 Gemini 2.5 Pro Experimental 这样非常新的模型,公开的、独立的、全面的对比基准可能仍然有限。)
好的,基于刚才增强的信息搜集和获取的最新基准测试、评测数据,我现在尝试刷新对三大模型厂商最新核心模型的要素评分。请注意,由于 Gemini 2.5 Pro Experimental 和 o3 都是非常新的模型,且 o3 完整版访问受限,部分数据可能来自 o3-mini 或初步/厂商报告,我会尽量注明。
刷新的核心要素得分 (满分5分) - 截至 2025年3月26日
刷新后的关键洞察:
1. 头部竞争白热化: Google 最新的 Gemini 2.5 Pro Experimental 在多个基准上表现出强大的竞争力,甚至在 LMArena 用户偏好和部分推理/知识基准上登顶,直接挑战 OpenAI 和 Anthropic 的领先地位。
2. 推理与编码各有侧重:
• OpenAI o3 似乎在纯粹的数学和逻辑推理方面达到了新的高度,基准测试得分惊人。
• Anthropic Claude 3.7 Sonnet 在编码和代理式工具使用方面表现极其出色,是目前的领导者。
• Google Gemini 2.5 Pro Exp 在推理、科学知识和多模态理解方面非常均衡且强大,编码能力也很强但略逊于 Claude 3.7。
3. 多模态是谷歌的强项: Gemini 2.5 Pro Exp 继承并强化了 Gemini 系列的原生多模态能力,在视觉推理和图像理解方面领先。
4. 成本与速度仍是关键权衡因素: 顶级模型(尤其是推理模型)往往伴随着更高的成本和潜在的延迟增加。各家都在推出不同版本(如 Flash, mini, Sonnet vs Opus)来满足不同需求。Gemini Flash 系列在速度和成本效益上表现突出。
5. 信息透明度和可访问性差异: Google 和 Anthropic 的最新模型相对更容易通过公开渠道(App, API, 云平台)访问。OpenAI 的 o3 完整版目前仍较神秘,限制了广泛的独立评估。
基于这些更精确的信息,之前关于谷歌战略的建议(重点投入生态集成、多模态、垂直领域,优化纯聊天竞争)的核心逻辑依然成立,但现在可以更清晰地看到:
• 保持核心智能领先的紧迫性更高: 竞争对手在推理和编码等关键领域进步神速,谷歌必须持续投入基础模型研发以保持在第一梯队。Gemini 2.5 Pro Exp 的发布表明谷歌有此能力和决心。
• 多模态的差异化优势需要加速落地: 既然 Gemini 在多模态理解上领先,应尽快将其转化为独特的应用场景和产品功能,尤其是在搜索、助手、硬件和 Workspace 中。
• 编码能力的追赶: 虽然 Gemini 2.5 编码能力强,但在部分基准和实际应用反馈上似乎略逊于 Claude 3.7 Sonnet。考虑到编码是 AI 的重要应用场景,谷歌可能需要在此领域持续优化,特别是在代理式编码 (Agentic Coding) 方面。
好了,这就是本期的深度实测内容啦~
欢迎一键三连,添加公众号为星标~第一时间获取新鲜推文
关注FishAI公众号,欢迎扫码交流群
THE END