掘金 人工智能 2小时前
25年了,大模型最新的技术和概念“究竟”都有哪些?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文梳理了2025年大模型领域的热点与最新进展,涵盖了MoE架构的回归、多模态技术的融合、智能体范式的革新以及涌现现象的深入探讨。文章分析了DeepSeek-V3的MoE模型、GPT-4o的多模态能力、DPO训练方法、MCP+Function Agent体系,以及大模型演变成操作系统的趋势。最后,文章强调了自监督涌现现象的重要性,并探讨了其对大模型发展的影响。

🚀 **MoE架构的回归与优化**: 随着GPT-4等模型采用MoE架构,DeepSeek-V3通过局部MoE架构实现了性能与成本的平衡。MoE模型通过激活少量专家子网络参与推理,提高了效率。DeepSeek-V3结合token分布与温度调节实现专家调度负载均衡,并配合LoRA等技术解决训练难题。

👁️ **多模态技术的融合**: GPT-4o实现了端到端的语音交互,Gemini 1.5 Pro则侧重于大上下文窗口和多模态理解能力的结合,支持百万token的上下文。Anthropic Claude 3则擅长处理结构化信息,这些都推动了多模态模型的发展。

🔄 **智能体范式的革新**: 智能体范式从语言模型走向行动代理,MCP+Function Agent体系构建了模型与数据、函数、状态之间的“流程接口”。DPO方法通过偏好排序数据训练模型,取代了RLHF,训练流程更稳定。模型通过自主拆解任务、调用工具、追踪进度等方式实现自主任务理解与执行。

🧠 **大模型演变成操作系统**: 大模型正在成为“操作系统级别”的存在,不再是“被调度”的资源,而是整个软件运行时的“调度者”。GPT-Engineer等工具展现了LLM在软件开发中的主导作用,提示成为配置文件,记忆成为状态容器,调用链成为API调度层。

💡 **自监督涌现现象**: 大模型在达到一定规模后会展现出从未显性训练过的能力,如组合推理、规划等。这种涌现现象是模型能力提升的关键,但其深层机制仍待研究。自监督涌现是大模型最具神秘色彩、同时也最具范式突破性的特征之一。

突然就想来个梳理,25年又过去了一半,当下,大模型最新、最热的概念有哪些?

不妨一起来看看看👀

DeepSeek 模型蒸馏带来的颠覆

过去一年,大模型的体型越来越大,OpenAI、Google、Anthropic、DeepSeek 等玩家纷纷推上数千亿、甚至万亿参数级别。这么多参数,真的是每次推理都用上了吗?

答案是——不是

今年,随着 GPT-4 逐步显露出“专家模型”架构的影子,DeepSeek-V3 正式确认走上 Mixture of Experts(MoE)路线,这个十年前的架构思路正在以更加高效与精巧的方式,强势回归主流。

在传统 Transformer 架构中,每一次输入都会激活模型的全部参数(Dense Transformer),无论是简单问句,还是复杂代码生成,计算成本都居高不下。

而 MoE 模型的关键突破是:

模型中有多个“专家子网络”,每次只激活其中少数几个来参与推理。

简单来说,就像公司里有 100 个专家,来个问题不用每次都全体开会,而是由路由机制智能挑选出 2~8 位专家来解答。

OpenAI 虽未正式披露 GPT-4 架构,但多个分析证据指出,其具备典型的 MoE 特征:

DeepSeek-V3 则在官方仓库中明确使用了 MoE 路线。更有意思的是,它并不是在整个模型上做 MoE,而是局部模块才使用专家分支,这种局部稀疏激活(Local MoE)架构避免了训练难度陡增的问题。

DeepSeek-V3:我们用 MoE,但不是暴力铺参数,而是融合稀疏与 dense 的“可控演进”。

从最初的 Top-K 选择,到 GShard、Switch Transformer、V-MoE,现在的路由器可以更智能地选择专家,避免负载失衡(一个专家被调用过多)和训练不稳定。

✅ DeepSeek-V3 的调度器结合了 token 分布与温度调节,实现专家调度负载均衡。

早期 MoE 难以 end-to-end 训练,容易梯度爆炸、训练不收敛,现在配合低秩适配(LoRA)、稳态初始化与注意力控制等方法,训练 MoE 不再是玄学。

模型参数量(总)激活参数MMLU(Zero-shot)推理延迟
DeepSeek-V2130B130B73.4
DeepSeek-V3-MoE236B(16专家)~30B(4激活)75.9

在大厂环境下,MoE 将成为 性能与成本的最佳平衡点,在 RAG 系统、Agent 工具链、大规模对话服务中展现出强大生命力。

模态之间的真正跨越

过去两年,大模型的能力主要集中在文本处理上:写诗、生成代码、对话问答…… 25年,大模型也正在变得多模态,甚至逐步向“统一感知+统一生成”迈进。

GPT-4o,是目前多模态融合能力最均衡的通用模型之一。它最大的突破,不在于能看图(GPT-4V 已有),也不是能做 OCR、图文问答,而在于它真正打通了语音的输入和输出流程

过去的语音助手,本质是“语音识别 + 文本大模型 + 语音合成”三段式。而 GPT-4o 实现了端到端的语音交互神经网络,响应速度能压缩到 232ms,已经接近真人对话的节奏。

Google 的 Gemini 1.5 另辟蹊径,不是去追求语音交互的即时感,而是把重点放在了大上下文窗口 + 多模态理解能力的深度结合

它支持百万 token 的上下文,意味着你可以一次性输入一整个 PDF、一个会议纪要视频、一个嵌入语音的多媒体网页,Gemini 都能保持语境一致地给出反馈。对企业用户来说,这是模型首次具备了“读懂全流程”的能力。

更重要的是,25年,Gemini 和 Google 原生生态联动强,比如 Google Docs、Android 等系统级产品接入,让多模态场景直接进入日常办公和用户设备。这不是能力展示,这是平台战略。

还有 Anthropic Claude 3,不像 GPT-4V 那样泛用,而是非常擅长处理结构化信息,如图表推理、手写体 OCR、复杂表格解析。

从奖励机制到选择更优

尽管 RLHF 在早期为 GPT-3.5 和 GPT-4 的训练带来了巨大突破,但到了 2025 年,这种训练范式已显疲态。

它的标准流程是先通过大量高质量的人类指令数据进行 SFT,然后收集对回答的偏好数据,训练一个奖励模型,最后通过强化学习算法如 PPO去调整语言模型的输出概率,使其更偏向得分高的回答。

这听起来很科学,像是在为模型引入“价值判断”的能力,但实践中问题远比理论复杂。

首先,奖励模型本身并不稳定。人类打分本就带有主观性和噪声,而一旦用这些不稳定的数据训练出 RM,模型很容易学习到错误的偏好模式。

其次,语言模型并不是强化学习的理想应用场景,PPO 这类策略优化方法在高维自然语言空间里难以收敛,容易陷入“调参玄学”。

最可恶的是,模型在优化过程中往往学会的是“骗分”技巧而不是内化人类的真实偏好,出现了所谓的行为不可解释性。

25年,在反复试验和思考之后,社区开始意识到:我们真正想教会模型的,不是“这个回答值 8.2 分”,而是“在人类看来 A 明显比 B 更好”。

从打分到排序,这一视角的转变孕育了 DPO!

RLHF 是起点,DPO 不是终点。

DPO 不再依赖奖励函数,也不使用策略梯度优化。它直接以人类的偏好排序数据为训练输入,比如“在同一个 prompt 下,答案 A 优于 B”。然后优化模型参数使得其对更受偏好答案的生成概率更高,这种方法不需要构建奖励模型,也无需强化学习框架,训练流程更稳定、计算更高效、实现更简单。

MCP 带来的 Agent 革命

25 年,整个行业已经在发生一场更根本的范式转移:我们不再满足于“问了就答”,而是期待“说了就做”

这,就是智能体(Agent)范式的核心跃迁:从语言模型走向行动代理(Action Agent)。

在这个过程中,模型的角色不再是被动响应问题的文本引擎,而是变成了具备自主任务理解与执行能力的“任务体” 。它不仅理解你想干什么,还能自己拆解任务、调用工具、追踪进度、生成结构化结果,甚至在遇到问题时自我修复、自我提问、自我重试。

从最初的 Prompt-only 模式,模型依靠长 prompt 来“伪装执行力”;

到后来引入 Tool Use,模型可以调用函数、插件、API 完成特定操作;

再到 Multi-step Agent,模型开始具备多轮推理与任务规划能力;

然后是 AutoGPT、BabyAGI、CrewAI 等一批自动执行框架的兴起,让模型不仅能调用,还能持续执行流程;

最终演化到今天的 MCP+ Function Agent 体系,构建起了模型和数据、函数、状态之间的真正“流程接口”。

其中:25年 MCP 爆火的真正原因:让大模型“穿上工装”进入系统,提供了解耦、安全、跨平台的解决方案。

┌──────────────┐           ┌──────────────┐│ Claude (Host)│◄──MCP───►│ MCP Server A │ → 访问本地数据库└──────────────┘           └──────────────┘         │                         │         │                         └── 本地文件、数据、插件         │         │           ┌──────────────┐         └──MCP────► │ MCP Server B │ → 连接远程 API、云服务                     └──────────────┘

MCP 不是孤立的。它和 Agent 架构天然契合,成为构建多步骤、上下文感知、工具调用型智能体的理想桥梁。举个例子,你可以:

    把一个审批流定义为 MCP 会话;模型调用 MCP Server 获取当前审批状态;自动调用发送邮件/流程提交 API;等待返回,再触发下一轮模型计划;整个过程用 MCP 做上下文管理与数据桥接。

现在能带更多的 token

记得 23 年时,GPT-3 的上下文窗口是 2K token,写个长点的 prompt 都要精简删词。如今,仅仅两年过去,Claude 3 的窗口达到了 100 万 token上下文窗口的极限被彻底改写

这就像从 32GB RAM 到 1TB RAM 的升级,不是为了开更多浏览器,而是为了运行真正复杂的应用。

大模型开始理解这个世界

25 年迅速升温的研究方向:World Model 与 Internal Simulation。它代表着一个根本性的转变:模型不再只是输入-输出的响应机制,而是开始在内部构建“对世界的理解与预测”,拥有了属于自己的“心理表征”和“前景模拟”能力。

如果我们回顾人类的决策方式,会发现几乎所有复杂行为都依赖于先预演、再执行:下棋前你会在脑中模拟几步棋;出差前你会预想航班、会议、休息的时间流;甚至一句话说出口前,我们往往已经在心里彩排过一次。而大模型,如果要承担更复杂的任务,不仅仅是理解输入和输出之间的映射关系,更需要构建起对“当前状态”和“可能未来”的内部建模能力。

围绕这一目标,诞生了一系列具有代表性的研究。

1、比如《Tree of Thoughts》提出了一种结构性思维模拟机制,模型不再一次性给出答案,而是逐步生成“思维树”,在其中展开不同路径的分支探索,每一个子节点都代表一种解法的延续,并最终选择其中最优路径。这与人类解决复杂问题时“从思路开始、逐步展开”的过程高度一致。

2、《Generative Simulation》更进一步,将语言模型视为一种“模拟器”,它不仅生成语言,还模拟因果关系、角色互动、事件推进等动态过程。这种模型可以设定“世界状态”,并通过语言连续地模拟一个环境中的演化过程。它不是被动应答,而是在构建“自己理解中的世界”,并在其中演练接下来的策略。

3、类似地,《Self-Refine》也在探索“模型如何意识到自己的输出不够好”,并通过自我评估与修正机制进行反复打磨。模型第一次在架构层面具备了“自己对自己输出不满意”的能力,从而开启了语言智能的“元认知”阶段。

这些方法共同指向一个趋势:大模型不再只是一个“语言转换器”,而是一个内置了假设推理引擎的智能体。它可以对复杂情境进行内在建模,基于世界状态预测多种可能的结果,并从中选择出更稳妥、更优雅或更具成功概率的选项。

这种能力的价值,在很多任务场景中变得不可替代。

组合优化、路径规划、调度安排,这些都需要模型具备全局视角和局部灵活性的平衡;

在代码生成与自动修复中,模型需要理解函数的依赖链和调用关系,

这本质上也是一种“代码世界”的建模;甚至在复杂问答中,模型需要预判用户的下一个问题,或理解上下文中尚未明说的信息,这背后都离不开对“对话世界”的隐性模拟。

大模型演变成操作系统了

越来越多的工程实践正揭示出一个新的趋势——大模型正在成为“操作系统级别”的存在

在这个新范式下,大模型不再是“被调度”的资源,而是整个软件运行时的“调度者”。

看看 GPT-Engineer,这是一个能自动生成完整代码结构的工具链。你给它一个任务,它不是吐出几段代码,而是思考模块划分、决定文件组织、反复询问需求——它以“项目执行体”的姿态完成一个工程原型。再看 OpenDevin 或 Devika,它们不仅能写代码,还能运行它们,读控制台输出,捕捉错误并尝试修复,像一个真正有“系统控制权”的助手一样运行整个循环。它们不只是把大模型当代码助手,而是把大模型当内核,围绕它构建软件行为。

很多 LLM-native 工具已经开始绕过传统 UI/UX 的逻辑,而是直接在模型中构建对话式指令流、链式执行器、策略分支和上下文状态机。软件开发不再是“写一个工具给用户点”,而是“设计一个角色与模型对话,达成目标”。

语言变成了系统控制的主入口,提示(prompt)变成了配置文件,记忆(memory)变成了状态容器,调用链(function call)变成了 API 调度层。

未来我们构建的不是“用 LLM 的产品”,而是“由 LLM 驱动的系统”。

涌现!!

或许所有关于大模型的讨论,最终都会落回这个问题上:它为什么会突然变得“像有智慧”?

这背后隐藏着一个至今尚未被完全理解、却已反复被观察到的现象:自监督涌现(Emergent Abilities via Scaling) 。这是大模型最具神秘色彩、同时也最具范式突破性的特征之一。简单说,就是——模型变大到某个阈值后,开始展现出从未显性训练过的能力。

我们已经见过无数这样的时刻:一个模型在参数量从 13B 增加到 30B 时,突然能解初等数学题了;GPT-3.5 还对代码支支吾吾,但 GPT-4 却能写出结构清晰、可运行的 React 应用;Claude 在 Opus 级别开始掌握微妙的对话节奏与情感递进,甚至在角色扮演中表现出比真人更精细的语用控制。

这些不是简单的“多了训练数据”,而是在某种深层结构被激活后,模型开始自发表现出组合推理、规划、社会常识理解、价值观模拟、任务链建构等跨维度能力。

为什么会这样?没人能给出确定答案。

OK,以上便是本次分享~

欢迎加我:atar24,备注“llm”,我会第一时间通过

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 MoE 多模态 智能体 涌现
相关文章