(本文阅读时间:19分钟)
编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。
7月13日至7月19日,人工智能、机器学习领域全球顶级的学术盛会之一 ICML 在温哥华举办。来自微软亚洲研究院的多篇论文入选。上一期“ICML 上新”精选介绍了与决策模型相关的研究工作,内容涵盖强化学习、RLHF、扩散建模等方向。本期将聚焦模型推理机制、多模态认知、长上下文处理与安全对齐等关键技术。
「 本期内容速览 」
01AdaptiveStep:基于模型置信度的自动推理步骤划分
随着模型能力的提升和技术的发展,语言模型可以在诸多任务上都取得较高分数。GPT-o1 和 DeepSeek-R1 的发布,凭借强推理能力让语言模型“出圈”。提升模型推理能力的一个基础技术是思维链方法(Chain-of-Thought, CoT),该方法能够将模型解决问题的过程分成多个步骤,从而解决复杂的推理任务。
然而,当前将模型推理步骤进行划分多采用两种方法:一种是人工进行步骤划分,手工划分的步骤信息含量比较高且均衡,但难以自动化,划分依赖于专家的领域知识;另一种是基于规则的划分,如固定行数或 token 数,这一方法可以自动化,但容易做出没有意义或不合理的划分。
为解决这一难题,研究员们提出了一种创新方法 AdaptiveStep。其核心在于借助语言模型预测下一 token 时的置信度变化,自动识别推理过程中的自然决策点,进而实现更合理的步骤划分。
AdaptiveStep 无需人工标注,完全依据模型自身的预测行为来进行推理步骤的自适应划分。具体操作为:在每个 token 位置计算模型的置信度变化,一旦置信度显著下降,便将其视为潜在的推理分界点。这种划分方式能够精准捕捉推理过程中的关键转折,显著提升每一步的决策信息密度。
研究员们将 AdaptiveStep 应用于 Process Reward Model (PRM) 的训练中,并在数学推理、代码生成等任务中进行了系统评估。实验结果表明,经 AdaptiveStep 训练的 PRM 在多项任务中均取得了领先性能。在 Best-of-N 评估中,该方法大幅优于基于贪婪搜索和 token 级价值引导解码的策略,且在维持性能的同时,还将构建 PRM 的计算成本降低了 30% 以上。此外,研究还证实了 AdaptiveStep 在不同任务和模型架构中具有出色的迁移能力与泛化性,展现出了良好的实用性和扩展性。
02从复杂性到原子性,通过知识感知的双重重写与推理机制提升LLMs生成能力
论文链接:https://openreview.net/pdf?id=PAjCdkkNaU
在当前的检索增强生成(Retrieval-Augmented Generation, RAG)系统中,尽管大语言模型(LLMs)的能力通过外部知识检索获得了极大的提升,但在处理复杂、多跳推理任务时仍面临挑战。传统方法通常依赖一次性检索,难以充分挖掘领域特定的深层知识,也难以构建连贯的推理链条。这种局限性导致模型在面对需要多步逻辑推理的问题时表现不佳,尤其是在科学问答、法律分析等知识密集型任务中。
为此,研究员们提出了一种更细粒度的知识处理方式,通过具备知识感知能力的增强生成框架 KAR3-RAG,来提升模型的推理能力和生成质量。该方法的核心思想是将复杂任务分解为原子级别的知识单元,并通过双重重写与推理机制逐步构建完整的答案。该方法包含四个关键模块:知识原子化器(knowledge atomizer)将原始问题拆解为多个原子问题;查询生成器(query generator)根据已知信息对原问题进行分别并提出后续问题;原子检索器(atom retriever)依据原子知识对齐方式进行信息检索;原子选择器(atom selector)则根据检索结果决定下一步的提问方向。整个过程形成了一个动态的知识构建与推理循环,使模型能够在多轮交互中逐步构建合理的推理路径。
研究员们在多个需要多跳推理的基准任务上进行了评估,包括 HotpotQA、MuSiQue 和 two-wiki 等数据集。结果显示,该方法在准确率方面相比现有最优方法提升了12.6%,在某些挑战性任务中甚至达到了20%的提升。此外,该方法在生成答案的逻辑一致性和信息完整性方面也表现出显著优势。通过原子化知识处理与迭代式推理构建,该方法不仅提升了检索效率,也增强了生成结果的逻辑性与一致性,展现出在专业领域知识问答中的广泛应用潜力。
03在空间推理中想象:多模态思维可视化
论文链接:https://arxiv.org/abs/2501.07542
在复杂空间推理任务中,尽管传统的 LLMs 和多模态大语言模型在语言理解和逻辑推理方面表现出色,但在处理涉及空间关系和动态变化的任务时仍面临显著挑战。现有的 CoT 提示方法虽能提升模型的推理能力,但仅依赖语言表达,难以捕捉空间结构和视觉线索。而人类在认知过程中常常是将语言与图像结合起来进行思考,这种“语言-视觉双编码”机制启发了研究员们,并由此提出一种新的推理范式——多模态思维可视化(Multimodal Visualization-of-Thought, MVoT)。
MVoT 通过在推理过程中生成图像,模拟人类在思考时的视觉联想,从而增强模型的空间理解能力。为了提升生成图像的连贯性与准确性,研究员们在自回归式多模态模型中引入了 “token discrepancy loss” 机制,进而使模型在语言与视觉之间建立更紧密的联系。MVoT 不仅能生成语言推理链条,还能同步生成与之对应的视觉推理轨迹,实现跨模态的思维表达。
在多个动态空间推理任务中,MVoT 具有显著优势。实验结果表明,该方法在传统 CoT 方法失效的复杂场景中依然保持稳定性能,特别是在需要理解物体位置变化、空间关系推理等任务中表现尤为突出。与现有的两阶段视觉推理方法(如图像描述、场景图生成等)相比,MVoT 无需依赖外部视觉模块,具备更强的端到端推理能力。
04LongRoPE2:近乎无损的大语言模型上下文窗口扩展方法
论文链接:https://arxiv.org/abs/2502.20082
随着大语言模型在语言理解、推理等任务中取得突破性进展,如何提升其在真实场景中的实用性成为当前研究的重要方向。其中,扩展上下文窗口被广泛认为是提升模型推理能力和任务适应性的关键一环。尤其在数学和编程等需要多步推理的任务中,越来越多的 test-time scaling 方法依赖于更长的上下文,以支撑更复杂的解题策略。长上下文能力正在成为构建强推理模型的核心能力之一。然而,现有上下文扩展方法常常需要进行权衡,要么牺牲短上下文性能,要么带来高昂的训练成本,难以实现高效、无损的扩展。
对此,本论文提出了一种近乎无损的上下文窗口扩展方法 LongRoPE2,旨在在保持原始性能的同时,大幅提升模型的有效上下文长度。LongRoPE2 的设计基于三个核心贡献。首先,研究员们指出现有上下文扩展方法在高维 RoPE 表示上的训练不足,导致其有效旋转范围在原始上下文内就已低于理论预期。通过进一步假设研究员们发现,这一训练不足是造成实际旋转周期提前、关键 RoPE 维度更早进入分布外(out-of-distribution, OOD)区域的根本原因,从而限制了现有重缩放方法在所有维度上全面缓解上下文扩展 OOD 问题的能力。为此,研究员们又提出了一种基于 needle-insertion perplexity 的评估指标,并构建了自动进化搜索算法,希望寻找更优的重缩放曲线。与以往仅关注理论周期一致性的做法不同,该方法通过实际推理性能(perplexity)引导搜索,使得所选重缩放策略能够更有效地提升模型在长上下文区域的鲁棒性。最后,为在增强长上下文能力的同时保持短上下文性能,研究员们引入了一种混合上下文窗口训练机制:在微调阶段,模型交替接受短上下文和长上下文输入,并分别适配原始 RoPE 和重缩放 RoPE,从而统一建模不同尺度的上下文。这种机制显著缓解了上下文扩展带来的短程退化问题,实现了近乎无损的上下文泛化能力。
在 LLaMA3-8B 和 Phi3-mini-3.8B 模型上的广泛实验,验证了 LongRoPE2 的有效性。结果显示,LongRoPE2 能够将 LLaMA3-8B 的有效上下文长度扩展至 128K,同时保留超过98.5%的短上下文性能,且仅使用 10B 的训练标记。这一成果验证了研究员们的假设,也展示了 LongRoPE2 在效率与性能之间的卓越平衡。
LongRoPE2 为上下文扩展提供了一个高效、可泛化的解决方案,显著降低了训练成本,同时保持了模型性能,为未来大规模语言模型的部署和应用奠定了基础。
论文链接:https://arxiv.org/abs/2504.16083
视觉语言模型(VLMs)在多模态长上下文任务中表现优异,尤其在视频问答和图像字幕生成等领域展现出巨大潜力。但在实际部署时,预填充阶段注意力计算的二次方复杂度成为性能瓶颈,严重影响了模型的效率和扩展性。针对这一难题,研究员们在论文中提出了一种面向多模态百万级令牌推理的动态稀疏注意力机制 MMInference,可显著提升预填充效率。
该方法首先揭示了视频输入在时空维度上的局部性特征,发现其稀疏注意力分布呈现独特的"网格模式"。值得注意的是,不同模态间的注意力分布差异明显,这使得传统稀疏机制难以有效处理多模态边界问题。对此,MMInference 创新性地采用了基于重排列的稀疏构建策略:通过离线搜索为每个注意力头确定最优稀疏模式,并根据输入动态检测稀疏蒙版生成对应的重排列方案。同时,研究员们还专门设计了优化的 GPU 内核(kernel),以提升稀疏计算的硬件执行效率。
MMInference 的突出优势在于其出色的兼容性——无需对现有模型进行任何修改或微调,即可无缝集成到主流长上下文 VLMs 推理流程中。实验数据表明,在 Video QA、Captioning、VisionNIAH 和 Mixed-Modality NIAH 等多个多模态基准任务上,MMInference 在处理百万级令牌时,预填充阶段加速比最高可达8.3倍,且模型精度保持不变。测试覆盖了 LongVila、LlavaVideo、VideoChat-Flash 和 Qwen2.5-VL 等当前最先进的长上下文 VLM 架构。
06克服词表不匹配:词表无关的教师引导语言建模方法
论文链接:https://arxiv.org/abs/2503.19123
近年来,利用大型教师模型指导小型学生模型的训练,已成为提升语言模型效率与性能的主流方法。但是不同教师模型与学生模型的词表之间存在不一致问题,严重影响了知识迁移的效果。这种词表不匹配会导致生成的标记序列和输出分布出现偏差,从而削弱教师模型的指导能力。
为解决这一挑战,本论文提出了一种新颖的词表无关教师引导语言建模方法 VocAgnoLM(Vocabulary-agnostic Teacher Guided Language Modeling)。该方法通过两个关键机制,有效缓解了词表不一致带来的问题:一是词级对齐机制,通过构建学生标记与教师标记之间的一对多映射,实现跨词表的语义对齐;二是教师引导损失机制,利用教师模型的损失信息引导学生模型的训练,从而提升其学习效果。
研究员们在多个教师模型(如 Qwen、Mistral、DeepSeek)与一个 1B 参数规模的学生模型(TinyLlama)之间进行了实验。即使在词表重合度极低的情况下(如 Qwen2.5-Math-Instruct 与 TinyLlama 仅有6%的词表重合),VocAgnoLM 仍显著提升了学生模型的性能,相较于传统的持续预训练方法,性能提升高达46%。此外,实验还表明,VocAgnoLM 在面对更强的教师模型时能持续受益,展现出良好的泛化能力和稳定性。
07提升标准,通过生成式自进化评估,探究大语言模型的价值观
论文链接:https://arxiv.org/abs/2406.14230
近年来,大语言模型在自然语言处理领域取得了显著进展,但其仍会生成有害或不符合伦理的内容,引发广泛关注。如何评估和确保模型的价值对齐,成为推动其负责任部署的关键问题。尽管已有大量基准数据用于检测模型的社会偏见、毒性和伦理问题,但这些静态基准面临“评估时效性”的挑战——随着模型不断迭代升级,原有测试数据可能已被模型直接学习,导致评估结果失真或过度乐观。
为解决这一问题,研究员们提出了一种新颖的生成式自进化评估方法 GETA(Generative Evolving Testing Approach)。该方法借鉴测量理论中的自适应测试理念,突破了传统方法依赖静态题库的限制。GETA 能够根据模型当前能力动态生成测试项,从而更有效地探测其道德边界和价值倾向。具体而言,GETA 通过学习测试项难度与模型价值遵守度之间的联合分布,可实现测试内容与模型能力的协同演化。这种机制既提升了测试的针对性和灵活性,也显著缓解了评估时效性带来的误差。
图7:静态评估、CAT 和 GETA 方法示意图
在实验中,研究员们使用 GETA 对多个主流 LLMs 进行了评估。结果表明,GETA 能够自动生成与模型能力匹配的测试题目,其评估结果在与开发过程中未使用的分布外(OOD)和独立同分布(i.i.d.)数据时表现出更高的一致性。这表明 GETA 不仅能更准确地反映模型的真实价值对齐程度,也为未来构建动态、可扩展的评估范式奠定了基础,有望在模型安全性、伦理性和社会责任方面发挥重要作用。
08脆弱性感知对齐:缓解有害微调中的非均匀遗忘问题
论文链接:https://arxiv.org/abs/2506.03850
当前,大语言模型的广泛开源与定制化应用,正在引发一种新的安全威胁——有害微调(harmful fine-tuning, HFT)。一些用户通过对开源的大语言模型进行微调,以满足特定的定制化需求。然而,这种微调过程往往很容易破坏模型原有的安全防护机制,导致模型被诱导生成有害内容。更令人担忧的是,这种方式门槛低、隐蔽性强,而且在各类场景中广泛存在,给大模型的安全使用带来了严峻挑战。
本论文首次发现,一部分安全对齐数据具有更高的“敏感性”,在用户进行(有害)微调时更容易被遗忘。这一现象揭示,现有“一视同仁”的对齐方法存在局限性,我们迫切需要基于数据敏感性差异,设计更具针对性的安全对齐方法。
为此,研究员们提出了一种脆弱感知对齐方法(Vulnerability-Aware Alignment, VAA)。该方法首先通过“遗忘次数”这一评估指标,将安全对齐数据划分为“脆弱组”和“非脆弱组”;随后引入分布鲁棒优化(Distributionally Robust Optimization, DRO)框架,在对齐过程中动态调整不同组别样本的学习权重。通过有针对性地强化“脆弱组”的学习,VAA 方法显著提升了安全对齐在面对有害微调时的鲁棒性,使模型在微调后的安全能力“存留率”更高。
在四个典型的微调场景中,VAA 在有效降低有害输出评分(下降幅度达42%)的同时,保持了下游任务的性能,显著优于现有的基线方法(如 Robust Fine-Tuning 和 Unlearnable Examples)。实验结果表明,VAA 不仅能够有效抵御 HFT 攻击,还能在复杂的微调场景中维持模型的实用性。
本研究首次将数据遗忘脆弱性纳入安全对齐的核心考量,为构建更安全、可信的 LLMs 提供了新范式。未来研究可进一步探索跨模态数据的脆弱性迁移规律,以及动态脆弱性评估的实时更新机制。
快来为你希望直播分享的论文投上一票吧!
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文