近年来随着大模型的迅猛发展,智能体被赋予更加丰富的内涵和期许,有人将智能体作为大模型武装专业知识、赋能千行百业的技术方案,有望成为大模型深入工作与生活应用的重要形态;也有人将自主智能体作为大模型进一步发展的关键,展示出更强的自主探索、决策规划和协作能力。
智源大会智能体论坛邀请到来自普林斯顿、Mila、清华大学、人民大学、上海交通大学等的研究者们,共同针对2025年智能体领域的热点话题进行了深入探讨。这些研究观点不仅反映出了智能体相关技术的最新进展,还展示了其在不同场景下的应用潜力和未来发展方向。
以下为精华观点总结:
(回放链接:https://event.baai.ac.cn/live/900)
王梦迪:《RL&Agent&Science》
当我们思考大语言模型(LLM)时,可以从控制理论的角度出发。通常,控制系统可以被视为一个动态系统或马尔可夫决策过程(MDP),其中系统状态随时间变化,状态转移由策略(policy)决定。我们的目标是调整策略以优化某些奖励(rewards)。从这个角度来看,大语言模型可以被视为一种策略,初始状态是提示(prompt),模型通过生成下一个token来更新状态。这种逐token的生成过程可以被视为状态转移过程,而Transformer的每一层可以被视为一种特定的策略。
强化学习(RL)可以用于优化大语言模型的策略。对齐(alignment)任务(例如,基于人类反馈的强化学习)旨在调整模型的策略以最大化某些奖励或人类反馈。常见的算法包括DPO和PPO。此外,强化学习还可以用于改进解码过程,例如:通过添加额外的控制器来调整下一个token的采样分布,从而在不微调模型的情况下实现对齐。
推理是当前研究的热点之一,目标是让大语言模型能够生成长链推理并解决复杂问题。这可以通过将模型与额外的记忆、规划和工具能力结合来实现,从而构建一个能够思考和行动的智能体。当智能体在环境中行动时,环境会变化,智能体需要根据新的环境状态更新其行动策略。这种推理智能体可以通过强化学习来训练。
为了处理复杂的任务,可以采用层次化强化学习(Hierarchical RL)。这种方法的核心是将任务分解为高层次的决策和低层次的执行。例如,在机器人控制中,高层次的策略负责规划和符号推理,而低层次的策略负责具体的物理控制。这种层次化方法可以应用于智能体推理问题,王梦迪教授团队通过构建 ReasonFlux框架来提取和利用现有的知识库,实现了用于 LLM 推理的层次化强化学习。
王梦迪教授团队尝试将 AI 智能体应用于解决科学问题。与数学领域不同,科学领域缺乏结构化的数据集。为此,他们开发了一种全自动的流程,从长达 11 年的真实世界的科学讨论中提取可训练的结构化数据,并从中提取高质量的问答对,最终得到了一个包含3000多个条目的真实世界数据集。
王梦迪教授团队成功地采用层次化强化学习方法训练了科学智能体,设置了高层次的Router 和低层次的微调模型。最终,多专家模型达到了人类科学家的水平,这说明可以在无需人工标注的前提下,训练开源模型像科学家一样进行推理。此外,王梦迪教授团队还发布了基于真实科学讨论的 LLM 推理评价对比评测基准 Genome-bench。
基于这一成果,王梦迪教授团队开发了专注于基因组学和基因组工程领域的多智能体AI系统“CRISPR-GPT”。该系统能够自动协助人类进行基因编辑研究、药物筛选、基因编辑等工作,包括设计实验方案、确定参数、故障排除以及数据分析和报告生成。构建这种科学智能体的难点在于说服科学家评估和使用这些智能体,并与AI研究人员密切合作。目前,Crisper GPT已经与不同大学的科学家合作,用于肺癌研究和阿尔茨海默病治疗的基因编辑,并与制药公司合作开发自动化AI药物靶点筛选流程。
近期,王梦迪教授团队提出了自进化的智能体“Alita”,它能够根据任务需求动态生成工具和工作流。与传统的智能体不同,Alita不需要预定义的工具,而是自己构建工具,并实时进化这些工具。在解决新任务时,Alita会实时生成所需的MCP,找出最佳的工作流程来解决问题,最终解决问题。使用Alita时,涉及到三个智能体:管理智能体、网络智能体和MCP生成智能体。
闫宇坤:《知识导向的智能体能力提升》
由于训练数据等因素限制,大模型存在知识局限,具体表现在如下方面:一是幻觉问题,模型有可能生成“似是而非”的错误内容;二是知识“过时”,由于数据处理与训练的滞后,模型无法及时“掌握”新产生的知识与信息;三是隐私泄露,敏感信息纳入预训练数据后存在一定的泄露风险;四是后训练失效,通过SFT等方式进行“知识注入”效果有限。
为解决上述问题,研究者们从2022年起逐步探索并发展了RAG(Retrieval-Augmented Generation)技术。从最基础的RAG范式,到关注检索时机与方式,再到COT(Chain of Thought)与RAG的结合、知识组织与RAG范式的配合,如今已发展到深思考模式下的知识获取与利用阶段。大模型的知识获取和利用问题,从最初的边缘问题逐渐成为核心问题。RAG技术的基础范式分为检索和生成两个模块:检索模块负责在遇到问题时找到相关知识,生成模块则将知识与问题结合并输出答案。
闫宇坤团队从2023年起系统性地研究RAG技术,首先关注检索基础能力的提升,通过使用decoder only的强基座模型训练Embedding模型,结合同质化小批次对比学习、多任务独立学习率调节等技术,产出了发布时在CMTEB检索榜单上排名第一的MiniCPM-Embedding系列模型。此外,团队还扩展了模型检索对象的模态,提出了VisRAG,结合MiniCPM-V系列模型实现了图文跨模态检索增强生成,并在多项VQA任务上超出GPT-4o效果。
然而,基础性能的提升和模态的拓展并不能从根本上解决复杂问题。闫宇坤团队对检索增强过程进行了反思,提出了基于笔记的多轮检索与深度整合——DeepNote。该方法通过引入大模型的笔记功能,实现知识获取的整体规划、动态拓展、近期整合以及自适应启停。具体而言,模型在接到问题后进行初次检索,并在笔记中记录已掌握和需要获取的信息,然后进入多轮循环,每次循环根据笔记内容提出新问题并检索,将新知识整合到笔记中,直至笔记内容足以回答问题。这种范式显著提升了模型解决复杂(长跨度、多跳等)问答问题的能力,相比基础RAG版本平均提升了约10个百分点,在减少输入的检索文本的同时提升了有效信息量和密度。
尽管RAG技术能够提供外部知识支持,但模型对有效知识的识别和利用能力有限,且内部知识与外部知识可能产生冲突。此外,检索系统引入的噪声也给模型带来了挑战。闫宇坤团队发现,强化训练更适合RAG系统的生成模块训练,因为它对数据规模需求低,适用于“Out-of-Domain”场景,且能保持通用能力。团队提出了RAG-DDR的生成链路调优方法,通过调整模型的温度系数来优化外部知识的组合和内部知识的采样,从而获得正负例或带有不同奖励值的案例。在长链路调优中,团队采用后向对齐的方式,将多智能体组成的链路视为齿轮系统,通过固定后面的系统,调优前面的系统,实现多轮优化,显著提升了系统性能。
在RAG场景下,有时候需要通过内部知识,有时候需要通过外部知识,有时候需要内部知识和外部知识有效结合,采样成功率是非常低的。对于涉及长链路推理的QA任务,其反馈信号非常稀疏。
为此,闫宇坤团队提出了KARE-RAG,把大模型在推理过程中的知识展开为知识图谱。通过这种方式,可以知道最终答案的正确与否。同时,也可以让大模型做同样知识展开,帮小模型去发现知识整理过程中具体哪里有错误,提升监督信号的密度。
闫宇坤团队进一步探索了多源多模态信息的多轮整合,提出了R1-Router工作,引入动态路由机制,在检索过程中实现多轮检索、思考、提问和知识整合。R1-Router不仅搜索文本知识库,还整合图像、表格等多模态信息。其训练过程包括知识库选择、查询语句生成、信息整理和答案输出等多个环节。通过Step-GRPO的方式进行逐步采样,实现了多个能力的联合调优。
林衍凯:《大模型自主智能体及端侧应用》
在过去的五年间,研究者们通过不断增长参数量和训练数据量,显著提升了大模型的智能水平。然而,为了迈向AGI(通用人工智能),大模型需要像人类一样学会使用工具并进行社会分工。
目前,许多研究基于闭源大模型(如GPT-4o、Claude等),通过设计“自主工作流”来激发模型的自主智能体能力。然而,真正的AGI需要模型自主学会使用工具,与环境交互以解决复杂问题。为此,工具学习技术应运而生,目标是让智能体学会使用搜索引擎等复杂工具,拓展大模型的能力边界。
自OpenAI发布GPT-3以来,已有大量研究工作探索如何让大模型学会使用外部工具。当前主流的工具学习范式包括:(1)示范学习,即让大模型模仿人类使用工具的行为;(2)教程学习,让大模型阅读工具使用手册以理解功能和调用方式;(3)探索学习,通过强化学习让模型基于环境和人类反馈自主探索工具的使用。
在示范学习方面,林衍凯团队提出了首个基于交互式网络搜索的中文问答框架WebCPM,标注了大量人类使用搜索引擎回答问题的数据,并微调了50亿参数的CPM模型。结果显示,仅需5500条数据即可让模型学会使用搜索引擎,显著提升其在开放域问题上的能力。然而,这种方法依赖于大量人类使用轨迹的收集,耗时耗力。
为解决这一问题,林衍凯团队提出了基于教程学习的工具指令微调方法,通过对工具的描述自动生成微调数据集,支持复杂工具调用场景及自动工具推荐和评测。基于此,该团队构建了Toolbench数据集,并训练了Llama 2模型,使其能够高效泛化到新的API上,工具使用能力接近ChatGPT。
一个优秀的智能体应具备自主性、泛化性和长程性三个关键特性。然而,目前许多智能体缺乏泛化性,仅能在有限环境中运行。为了实现通用自主智能体,林衍凯团队关注MCP(Model-Controller-Provider)协议,通过标准化协议解决大模型与工具之间的交互问题。在miniCPM上实现MCP能力增强后,通过数据构造和在线强化学习,模型在15个工具上的调用能力超过了Qwen3和GPT-4o。
尽管如此,仅靠MCP仍不足以实现任务层面的泛化。团队发现奖励模型在泛化性上优于策略模型,尤其是在OOD(Out-of-Distribution)场景下。因此,团队通过蒙特卡洛树采样训练过程奖励模型,引导策略模型解码,显著提升了模型在独立同分布和OOD场景下的性能。
长程任务是大模型面临的另一挑战。即使单步成功率很高,多步任务的成功率也会急剧下降。为此,团队探索了多步强化学习在长报告生成场景中的应用。在长报告生成任务中,团队设计了规划型模块和写作型智能体协同工作的框架,并通过两阶段强化学习优化模型性能,最终在多个指标上超过了现有方案。在GUI交互场景中,团队开发了AgentCPM-GUI,通过高质量数据集、强化微调和紧凑的端侧机制设计,显著提升了模型在多模态GUI任务中的性能,超过了现有模型。
为了减少人类介入,林衍凯团队探索了自主工具智能体,即智能体能够主动预测人类需求并提供服务。为此,团队构建了基于环境模拟的主动式任务生成场景,训练了Llama-3-Proactive模型,使其在代码编辑、文章写作和智能家居场景中展现出主动预测人类需求的能力,预测性能超过了现有模型。
王硕:《LLM×MapReduce——基于分治思想的长序列处理》
LLM×MapReduce框架的灵感来源于大数据领域的经典技术MapReduce。MapReduce最初由谷歌为处理海量网页和日志而设计,通过Map操作将数据转换为中间键值对,再由Reduce操作聚合相同键的值,从而实现大规模并行处理。这一思想被引入大模型领域,旨在解决大模型在处理超长文本时的挑战,例如输入端文本长度增加导致性能下降和计算开销增大等问题。
面对长文本处理的挑战,一种思路是提升单个大模型的长序列处理能力,另一种是构建多核系统,基于分治思想让多个模型协作完成任务。LLM×MapReduce框架采用后者,将长文本切分为短片段,让模型分别处理后再汇总结果。这种方法可扩展性强,但存在跨片段依赖和跨片段冲突问题,可能导致断章取义。为此,研究者提出了结构化通信协议和上下文置信度校准技术来缓解这些问题。
LLM×MapReduce的工作流程包括:将长文本切分片段,进入Map阶段后,模型抽取结构化信息(如答案、理由和置信度分数),若片段无用则被丢弃;接着通过Reduce操作将结果汇总为最终输出。
在训练阶段,研究者提出Pyramid-Align方法生成高质量对齐数据。该方法利用大模型将长文档处理成层次化金字塔结构,叶子节点对应原始片段,上层节点是对下层的总结。通过在不同层级采样生成问题,结合了全局信息整合和局部细节感知的优点,实验表明其数据合成质量优于现有方法。
LLM×MapReduce不仅适用于长输入到短输出的任务,还适用于超长输入到长输出的复杂任务,例如根据海量文献生成长报告。这类任务的挑战在于资源收集和资源利用。研究者采用聚合式方法,通过Map操作理解单篇素材,再通过类似卷积神经网络的多层累积操作得到全局特征,并引入信息熵评估方法指导中间过程。
基于LLM×MapReduce框架,研究者开发了“Survey GO”系统,用户输入主题或文献后,系统自动检索、整理文献并生成报告。该系统已开源,生成了近万份长报告,包含40万参考文献。
然而,MapReduce存在局限性,如任务调度效率低、执行模型固定、数据交换效率低等。研究者从Spark中获得启发,对Survey GO进行优化:一是从批处理到微批处理的演进,显著缩短任务响应时间;二是将固定线性流程改造成基于DAG的弹性执行模型,支持算法策略的灵活调整和人工干预;三是提升大模型间信息交换效率,通过明文空间的冗余信息消除,设计启发式搜索算法A*-Thought,提升信息生成密度。
A*-Thought通过双向重要性估计(BIS)和A搜索算法,在Step-level和Path-level消除冗余信息。BIS结合注意力权重和对数似然估计Token的重要性,A搜索算法通过定义代价函数(包括当前代价和未来代价)在思维链中寻找最优路径,从而提升大模型在处理长文本时的效率和质量。
钱忱:《大模型群体协作的高效化机制》
大模型与智能体在功能和思维方式上存在显著区别。大模型主要依赖封闭式的快思考,通过序列化模式实现语言生成、翻译、分类等功能,并在一定程度上进行长程规划和工具使用。而智能体则更侧重于开放性的慢思考,利用长程规划、工具学习和长短期记忆等能力来完成复杂任务。例如,RAG模式用于解决智能体的长短期记忆问题,分治法则是一种规划模式,这些都体现了智能体在任务执行中的复杂性和灵活性。
随着MCP(模型上下文协议)的出现,智能体的工具开发从传统的push型转变为pull型,极大地提升了工具的复用率和生态的开放性。这种转变使得智能体的构建更加容易,也为未来的智能体发展提供了更广阔的空间。
尽管智能体协作具有巨大的潜力,但也面临着诸多挑战。例如,多智能体协作的沟通复杂度呈指数型增长,这使得协作的性价比成为了一个关键问题。协作的开销主要体现在信息交互、行为路由、推理试错三个方面。为此,我们可以从通信协议、协作模式、推理能力三个角度对多智能体协作进行优化。
为了优化智能体的协作效率,可以从以下几个方面入手:一是精简信息交互,通过非自然语言的交流模式减少上下文长度;二是通过训练方案将高效的交互模式注入智能体参数中,钱忱老师团队提出了Optima高效智能体沟通的训练方案,让智能体做N轮交互模拟,然后在交互模拟的树上打分;三是采用中心化的编排机制,钱忱团队在 Puppeteer 中动态调整多智能体协作的任务分配和触发,通过幕后策略的调控实现高效的协作。在 Co-Saving 中,钱忱团队探索了资源有限的协作链压缩,实现了具备资源意识的多智能体推理,结合资源信息动态筛选经验,丢弃冗余的推理过程,缩减推理链长,实现推理优化。
经验的持久化是提升智能体推理能力的重要手段。通过将高奖励的推理过程存储下来,供未来检索和复用,可以显著提升群体推理的效率,减少推理轮次和资源消耗。MAS-GPT通过大模型生成多智能体协作的workflow,进一步降低了推理消耗,提高了运行效率。这种经验的积累和复用,不仅能够提升单个智能体的性能,还能推动整个智能体群体的演化和进步。
未来,智能体的发展可以从以下几个方向进行探索:一是高效的交互,通过Embedding等方式实现智能体之间的直接交互,但需要解决嵌入空间一致性的问题;二是高效的路由,实现自顶向下与自底向上的结合,让智能体能够自主地根据特长进行协同;三是高效的推理,探索智能体的解耦机制,使其能够像人类一样在不同团队中灵活应用所学经验。
于济凡:《大模型多智能体驱动的数智教育新生态》
刘慈欣在科幻小说《乡村教师》中写道:人类这个群体特别奇怪,他们没有记忆的遗传能力,他们所有的记忆都是后天进行习得的,这简直是不可思议!而且他们没有记忆遗传,相互之间是通过声波这种难以置信的以每秒1-10比特的低速率进行信息传递的生物怎么能诞生5B级的文明?后面他们说:这是一个非常古老的词汇,有一种个体以一定数量分布在各个角落,这群人充当着两代生命体之间知识传递的媒介,他们叫做教师。
这段文字强调了教师在传递文明中的关键作用,同时也引发了对教育现状的思考。在全球范围内,优质教育资源的不足和分配不均仍然是一个重大问题,尤其是在地区经济发展差异巨大的情况下,教育资源的匮乏更加明显。
从公元前3500年美索不达米亚平原的第一所学校开始,每一次信息技术的突破都推动了教育生态的重构。从1980年代的广播电视教育到2010年的在线教育慕课,信息技术不断拓展优质教育资源的覆盖面并改变传授形式。如今,大模型和多智能体技术的发展为教育带来了新的机遇,有望彻底改变学习资源和交互方式,实现个性化学习。
清华大学尝试构建了“MAIC”平台,目标是通过AI智能体实现高效、个性化、低成本、高质量的知识传播,扩大优质教育资源的覆盖面。与传统在线教育相比,该平台利用大模型和多智能体技术,以更低的成本和更少的时间构建自适应课程,并为每个学习者提供智能体陪伴学习。
在MAIC平台上,学生不再依赖单一的教师或视频学习,而是由教师智能体自适应管理课程内容和节奏,助教智能体维持课堂秩序并回应学生问题,同时还有多种个性化定制的同学智能体,如“显眼包”“好奇宝宝”“笔记员”等,以满足不同学生的需求。教师只需上传课件或课程资源,智能体即可协同构建自适应课件,甚至自动生成讲解脚本和学习题目。该平台可以通过符合教育学原理的机制,引导课堂走向更加适合每个同学的状态。
MAIC平台的核心优势在于多智能体的协作和个性化学习体验。基于大模型的强大生成能力,平台能够根据学生的不同背景、专业和需求,提供定制化的学习内容和示例。学生可以自主调整学习进度,随时随地学习。此外,平台还具备情感对齐和价值对齐能力,能够对学生进行情感关怀,增强学习动力。
构建MAIC平台涉及多个技术难点,包括教师内隐知识的挖掘、跨模态长文本生成、多智能体协同控制等。例如,生成讲稿需要复杂的VoT结构和多智能体协同,以实现课件理解、讲稿生成和语法控制等功能。此外,平台还通过教育学方法指导,构建细粒度的课程讲稿,显著提升了学生的学习效果。
其中,对教师进行的深度对齐的备课辅助,需要建构知识模型;多智能体自适应课堂,需要建构教学模型;高效精准的学生建模则对应于建构学生模型。
在构建讲稿生成工作流时,给定教学资源之后需要对其进行拆分讲解,生成讲稿时需要配上讲课、翻页等等动作,需要构建一套独特的VoT结构,使用多智能体协同来完成课件理解、讲稿生成、控制语法、构建可泛化的异构学习操作。
对于智能体驱动的自适应课堂其实也非常复杂,不仅需要构建一个包括教师、助教、同学多智能体课堂,还需要使它们真正扮演对应的教学和辅助功能。因此,最大难点不仅在于让系统运转起来,还需要非常完备的多智能体协同控制算法。
于济凡老师团队基于大量学习科学已有的方法论构建自顶向下工作流机制,实现了导演智能体为主体的协同配合方案。他们发现,使用大模型作为核心控制多个智能体去完成课堂模拟,可以使 AI 助教在认知临场感、教学临场感、社会临场感方面相较传统方法具有优势。在多智能体场景下,大模型可以深刻理解过去使用社科方法研究出来的理论规律。
包括我们也基于教育学方法指导,构建了刚刚视频中所展示的那种,能够符合学生兴趣、认知方式的非常细粒度到每一句的课程讲稿。我们也发现,在使用这样的个性化内容的前后,学生的成绩和评测的效果都有了显著的提升。
于济凡老师团队尝试使用元认知的规律模拟不同学习场景中有困难的学生,在真人介入平台使用之前,先让虚拟学生尝试使用该系统,让多智能体本身作为一个评测方式参与到平台使用过程中,提升多智能体生态的服务潜能。
MAIC平台自2024年1月提出以来,经过多轮校内试点和推广,取得了显著成效。在与真人教师授课和线上视频慕课的对比实验中,AI教师组的学生在身份感知和学习成效方面表现优于其他组别,显示出AI在教育领域的巨大潜力。目前,平台已在清华大学开设多门校内课程,并在中西部地区开展公益活动,为教育资源匮乏地区提供支持。
未来,MAIC平台的发展将聚焦于更多场景的探索和开源合作。一方面,平台将继续服务教育资源匮乏地区,通过公益促进科研;另一方面,平台将面向科研合作开源,构建大模型多智能体时代教育研究的社群。
刘邦:《构建基础智能体的认知引擎》
智能体是任何能够接受环境中的信号并且作出决策、作出行动的实体。其基本架构包括感知环境的传感器、决策过程以及执行动作的执行器。随着大模型时代的到来,智能体的自然语言理解和推理能力显著提升,但其认知核心的构建仍面临挑战:如何整合记忆、规划和多模态能力?
人类大脑是自然界唯一的智能体实例,其与机器智能(如LLM)存在显著差异。从硬件层面来看,人类大脑由生物细胞组成,功耗低(约20W),而LLM需要大规模集群训练,功耗高。在意识层面,LLM缺乏人类的主动意识。在学习能力上,人类具有终身学习和快速适应新任务的能力,而LLM在这方面相对不足。然而,机器智能在存储大量知识和进行高效搜索推理等方面具有优势。
尽管智能体在语言理解和视觉感知方面取得了显著进展,但在推理、记忆、规划等核心认知功能上仍有提升空间。此外,情感处理、多模态交互等能力也相对薄弱。研究者们希望通过对比机器智能和生物智能,探索如何提升智能体的终身学习能力、复杂场景下的推理能力以及情感和多模态交互能力。
刘邦教授认为基础智能体应该能够被广泛应用到不同的场景,有充足的泛化性。此外,智能体需要有强大的感知、认知和行为能力。最后,我们希望智能体有非常强的合作能力,能够依靠强大的多智能体系统去解决更多复杂任务。
为此,该团队定义了 Foundation Agent的工作循环(Agent Loop),描述了智能体如何从环境中感知信号、更新内部状态、并采取行动。智能体的认知结构由一些不同的核心内在状态组成,这些内在状态包括世界模型等用于根据当前状态预测未来的技术模块、用来存取过往经验的记忆模块、驱动智能体的目标模块、表征即时状态的情绪模块、以及综合长短期目标和当前状况来给予反馈的奖励模块等。研究者试图构建一个具备模块化内部状态和清晰地认知能力定义的智能体:基于这些内在状态,Foundation Agent框架把认知定义成一个函数,基于上一时刻的内在状态和上一时刻执行的动作、当前的观测,推导下一时刻更新的内在状态以及作出行动决策。进一步,我们可以定义更清晰的认知函数的两个子函数,一个是学习函数,一个是推理函数。
为了提升智能体的记忆能力,刘邦教授团队提出了R3MEM架构,旨在解决LLM无状态、经验无法被保留的问题。该架构通过将记忆视为信息的压缩和解压缩过程,设计了一个可逆的记忆网络。通过引入读写token和层次化的数据压缩,R3MEM能够高效地存储和检索记忆,同时减少存储和检索的延迟。
为了提升智能体的推理能力,刘邦教授团队提出了System1.5推理框架,旨在结合快速的启发式推理(System1)和深度推理(System2)的优点。该框架通过动态调整推理过程中的计算资源,避免了冗余和过度思考的问题。通过引入深度捷径和步骤捷径,System1.5能够在推理过程中灵活调整计算深度和步骤,从而提高推理效率。
System1.5的训练过程包括隐空间蒸馏和捷径学习。通过让学生模型的隐层状态对齐教师模型的推理路径,System1.5能够在不生成中间文本的情况下学习推理过程。同时,通过标注关键步骤并引入早退损失函数,System1.5能够动态调整每层的计算资源,从而在保持推理准确性的同时提高效率。
不过这类问题依然存在个关键的问题,就是它们对所有的推理步骤一视同仁,无论是同心表达(音译)问题还是合并两条事实等等,模型会使用同样的计算深度,导致效率问题。所以我们希望让推理过程更加具有动态适应性,在难的地方花更长时间思考,在简单的地方快速通过。