PaperAgent 04月23日 22:39
ICLR 2025杰出论文解读:中科大LLM编辑、DeepMind安全对齐、LLM微调学习动态
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ICLR 2025杰出论文奖揭晓,包括多篇涉及语言模型的论文。探讨了安全对齐、学习动态、模型编辑等问题,展示了相关研究成果及意义。

📄《Safety Alignment Should be Made More Than Just a Few Tokens Deep》指出大型语言模型安全对齐存在浅层问题,提出扩展安全对齐的方法

🎓《Learning Dynamics of LLM Finetuning》研究大型语言模型在不同微调过程中的学习动态,提出统一解释框架并扩展分析

💡《AlphaEdit: Null-Space Constrained Model Editing for Language Models》解决模型编辑中知识破坏问题,提升大多数‘定位-编辑’方法性能

2025-04-23 16:28 湖北

ICLR 2025 杰出论文奖今天揭晓!
通过两阶段的遴选,大会共评选出3篇杰出论文和3篇荣誉提名论文:
    1、杰出论文Safety Alignment Should be Made More Than Just a Few Tokens Deep.Learning Dynamics of LLM Finetuning.AlphaEdit: Null-Space Constrained Model Editing for Language Models.2、荣誉提名论文Data Shapley in One Training Run.SAM 2: Segment Anything in Images and Videos.Faster Cascades via Speculative Decoding.
    一、Safety Alignment Should be Made More Than Just a Few Tokens Deep
    机构:普林斯顿大学,Google DeepMind
    作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson.
    当前大型语言模型(LLMs)的安全对齐是脆弱的。简单的攻击,甚至良性的微调,都可能破解对齐后的模型。许多这些漏洞都与一个共同的根本问题有关:安全对齐可能会走捷径,即对齐主要只调整模型在最初几个输出token上的生成分布。将这一问题统称为浅层安全对齐。
    通过案例研究来解释浅层安全对齐存在的原因,并展示这一问题如何普遍导致大型语言模型中最近发现的多种漏洞,包括对对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击的易感性。
    将安全对齐扩展到最初几个token之外可以显著提高对一些常见攻击手段的鲁棒性。还设计了一个正则化的微调目标,通过限制对初始token的更新,使安全对齐在微调攻击下更具持久性。
    总体而言,主张未来的安全对齐应该不仅仅局限于最初几个token的深度。
      论文:https://openreview.net/pdf?id=6Mxhg9PtDE
      二、Learning Dynamics of LLM Finetuning
      机构:不列颠哥伦比亚大学
      作者:Yi Ren, Danica J. Sutherland.

      学习动态(Learning dynamics)描述了特定训练样本的学习如何影响模型对其他样本的预测,为我们理解深度学习系统的行为提供了一个强大的工具。通过分析不同潜在回答之间影响积累的逐步分解,研究了大型语言模型在不同类型微调(finetuning)过程中的学习动态。提出的框架允许对流行算法在指令微调(instruction tuning)和偏好微调(preference tuning)方面的训练进行统一解释。

      特别是,提出了一个假设性的解释,说明为什么特定类型的幻觉(hallucination)在微调后会增强。例如,模型可能会使用回答问题B的短语或事实来回答问题A,或者在生成回答时反复重复类似的简单短语。还扩展了提出的框架,强调了一个独特的“挤压效应”(squeezing effect),以解释在离线直接偏好优化(off-policy direct preference optimization,DPO)中观察到的一个现象,即运行DPO时间过长甚至会使期望的输出变得不太可能。这一框架还揭示了在线DPO和其他变体的益处来源。

      这种分析不仅为理解大型语言模型的微调提供了新的视角,还启发了一种简单而有效的方法来提高对齐性能(alignment performance)。

        code:https://github.com/Joshua-Ren/Learning_dynamics_LLM论文:https://openreview.net/pdf?id=tPNHOoZFl9
        ICLR 2025杰出与荣誉提名论文PDF已更新在AGI观测站更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG Manus+MCP GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
        三、AlphaEdit: Null-Space Constrained Model Editing for Language Models
        机构:新加坡国立大学,中国科学技术大学
        作者:Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua

        大型语言模型(LLMs)常常表现出幻觉现象,生成错误或过时的知识。因此,模型编辑方法应运而生,以实现针对性的知识更新。为了实现这一目标,一种流行的范式是“定位-编辑”方法,该方法首先定位有影响力的参数,然后通过引入扰动来编辑这些参数。尽管这种方法有效,但当前研究表明,这种扰动不可避免地会破坏LLMs中原本保留的知识,尤其是在顺序编辑场景中。

        为了解决这一问题,引入了一种名为AlphaEdit的创新性解决方案。该方案在将扰动应用于参数之前,先将其投影到保留知识的零空间中。从理论上证明,这种投影可以确保在查询保留知识时,经过编辑后的LLMs的输出保持不变,从而缓解了知识破坏的问题。

        在包括LLaMA3、GPT2-XL和GPT-J在内的各种LLMs上进行的大量实验表明,AlphaEdit通过仅添加一行用于投影的额外代码,平均提升了大多数“定位-编辑”方法的性能达36.7%。

          code: https://github.com/jianghoucheng/AlphaEdithttps://openreview.net/pdf?id=HvSytvg3Jhhttps://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/

          推荐阅读


            欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

            阅读原文

            跳转微信打开

            Fish AI Reader

            Fish AI Reader

            AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

            FishAI

            FishAI

            鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

            联系邮箱 441953276@qq.com

            相关标签

            ICLR 2025 语言模型 安全对齐 学习动态 模型编辑
            相关文章