原创 夕小瑶编辑部 2025-04-23 17:25 北京
ICLR 是专注于表征学习的人工智能领域顶级会议,由深度学习巨头 Bengio 和 LeCun 牵头举办,与 NeurIPS 、ICML 并称为机器学习三大顶会。
今天,ICLR 大会官方发布了今年的 ICLR 杰出论文奖。
共有3篇论文获奖,另外还有3篇论文获得了荣誉提名。
今年是 ICLR 举办的第 13 届,会议即将在 4.24-4.28 在新加坡举办。
投稿数量:根据 reddit 已有的信息(非官方),本届 ICLR 2025 共收到约 11,500 篇有效投稿(接近但未精确确认,可能为 11,672 篇)。
录用数量:共录用 3,706 篇论文。
录用率:总体录用率为 32.08%(3,706/11,672,基于 Reddit 讨论和 Paper Copilot 数据,最终以官方为准)。
相比 ICLR 2024 的数据《ICLR 2024 杰出论文奖揭晓!两篇国内论文获荣誉提名》:7,262 篇投稿,2,260 篇录用,录用率 31.1%,今年数量明显增加。
下面一起看看今年 3 篇杰出论文 +3 篇荣誉提名的具体论文信息。
公众号后台回复「ICLR2025」可以快速下载论文合集。
3 篇杰出论文
杰出论文 1
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
(中文直译:安全对齐不应仅限于浅层的少数几个词元)
https://openreview.net/pdf?id=6Mxhg9PtDE
【论文核心贡献 & 创新点】:
该论文发现当前大语言模型(LLMs)的安全对齐方法(如 SFT, RLHF, DPO)存在一个普遍的、根本性的问题,即 “浅层安全对齐 (shallow safety alignment)”。
这意味着安全对齐的效果主要体现在模型输出的最初几个词元(tokens)上,模型学会生成拒绝式的开头(如 "I cannot fulfill..."),但其内部生成有害内容的能力并未被根本改变。
该研究指出,“浅层安全对齐” 这个核心问题可以统一解释近期发现的多种 LLM 安全漏洞,包括:
1、提出并验证“深度安全对齐”概念和方法:
作为“浅层”的对立面和解决方案,论文提出了 “深度安全对齐 (deep safety alignment)” 的概念。并通过一种数据增强方法(称为“安全恢复样本”,Safety Recovery Examples)进行初步验证:
即使模型的输出开头偏离了安全轨道(例如,被诱导以有害内容开头),模型也应被训练得能够“恢复”到安全的拒绝式回答。实验表明这种方法能增强模型对某些常见攻击的鲁棒性。
2、提出并验证约束性微调方法:
针对微调攻击,论文提出了一种新的约束性优化损失函数 (constrained optimization loss function)。其核心思想是在微调过程中,重点约束模型在初始词元上的生成概率分布,防止其发生大的偏移,从而在允许模型适应下游任务的同时,最大程度地保留其原有的安全对齐特性。
总结: LLM 安全性是当前 AI 领域最受关注的问题之一,这篇论文精准地指出了当前 LLM 安全对齐研究中的一个关键痛点——“浅层性”,并通过“深度安全对齐”和“约束性微调”两个方向,提出了具体且可操作的改进思路和初步验证。
杰出论文 2
LEARNING DYNAMICS OF LLM FINETUNING
(中文直译:大型语言模型微调的学习动态)
https://openreview.net/pdf?id=tPNHOoZFl9
https://github.com/Joshua-Ren/Learning_dynamics_LLM
【论文核心贡献 & 创新点 】:
提出了一种基于学习动态(Learning Dynamics)的框架,通过分析梯度更新如何影响模型对不同输入的预测(特别是不同响应的可能性),来统一理解不同 LLM 微调算法(如 SFT、DPO 及其变种)的行为。
该框架成功解释了 LLM 微调中的多种已知或新观察到的现象,包括:
论文提到了一个概念——"挤压效应" (Squeezing Effect),明确提出并解释了一个关键机制——在 DPO 等使用负梯度的算法中,对低概率响应施加负梯度会将其概率质量“挤压”到模型先前最自信的那个响应上,这可能是导致意外行为(如重复、性能下降)的原因。
y+
) _和_负样本 (y-
) 进行训练,以减轻后续 DPO 中的挤压效应。总结: 这篇论文巧妙地运用学习动态理论深入剖析了 LLM 微调的核心过程。其提出的统一框架和“挤压效应”解释为理解和改进 LLM 对齐提供了重要的理论基础和实践指导。
杰出论文 3
AlphaEdit: Null-Space Constrained Model Editing for Language Models
(中文直译:AlphaEdit: 面向语言模型的零空间约束知识编辑)
https://openreview.net/pdf?id=HvSytvg3Jh
https://github.com/jianghoucheng/AlphaEdit
论文指出现有的"定位-编辑" (locate-then-edit) 范式在更新 LLM 知识时,引入的扰动会不可避免地破坏模型中原有的、需要保留的知识,尤其在连续编辑场景下问题更严重,导致遗忘和模型崩溃。现有方法难以平衡“知识更新”和“知识保留”这两个目标。
【论文核心贡献 & 创新点】:
总结:AlphaEdit 论文针对当前 LLM 知识编辑领域的一个关键痛点——更新知识与保留原有知识之间的冲突和破坏——提出了一个创新且简洁的解决方案。其核心亮点在于巧妙地运用了线性代数中的“零空间投影”概念,将参数更新约束在不影响原有知识表示的空间内进行。这不仅在理论上保证了对保留知识的“零干扰”,还简化了优化目标,避免了复杂的权重调整。
3 篇论文获荣誉提名
荣誉提名论文 1
DATA SHAPLEY IN ONE TRAINING RUN
(中文直译:一次训练运行中的数据 Shapley)
https://openreview.net/pdf?id=HD6bWcj87Y
【论文核心贡献&创新点】:
总结:该论文针对数据归因领域的核心痛点——传统 Data Shapley 的计算瓶颈和模型特定性缺失——提出了一个创新且非常实用的解决方案 "In-Run Data Shapley"。其核心思想(分解训练过程 + 迭代归因)和关键技术("Ghost" 计算)极大地提升了效率,使得在大规模模型上应用 Shapley 值这一理论上公平的归因方法成为现实。
荣誉提名论文 2
SAM 2: Segment Anything in Images and Videos
https://openreview.net/pdf?id=Ha6RTeWMd0
【论文核心贡献 & 创新点】:
扩展 SAM 至视频域 (Extension of SAM to Video): 将 Segment Anything 模型的能力从静态图像扩展到了视频,提出了一个统一处理图像和视频分割的模型 (SAM 2)。
总结:SAM 2 是对开创性的 SAM 模型一次非常成功的演进,作为一个统一图像和视频分割的基础模型,并且伴随全面的开源,SAM 2 有望像 SAM 一样,对下游的视频理解、编辑、AR/VR 等应用产生深远影响。
荣誉提名论文 3
Faster Cascades via Speculative Decoding
(中文直译:通过推测解码实现更快的级联)
https://openreview.net/pdf?id=vo9t20wsmd
【论文核心贡献&创新点】:
这篇论文巧妙地结合了两种流行的 LLM 推理优化技术,提供了一种新的、可能更优的平衡点来协调推理速度、计算成本和模型性能。
总结:这篇论文巧妙地结合了两种流行的 LLM 推理优化技术,抓住了它们各自的优势——级联的成本效益权衡和推测解码的速度与质量保证。其核心思想是将级联的决策过程融入推测解码的并行框架中,这是一个有前景的方向。
公众号后台回复「ICLR2025」可以快速下载论文合集。