夕小瑶科技说 2024年12月09日
今日最佳 AI 论文:简单蒸馏训练,就能超越 o1-preview?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交大团队的最新研究表明,通过简单的知识蒸馏技术,就能让一个基础模型在数学推理任务上超越o1-preview.他们首先精心挑选和重构公共数据集,然后利用o1模型的API获取高质量推理数据,对Qwen2.5-Math-72B模型进行微调.结果显示,该模型在美国数学邀请赛(AIME)上的准确率超过了o1-preview,并在其他任务上也表现出良好的泛化能力.然而,作者也指出,过度依赖蒸馏可能导致性能上限难以突破、技术创新缺失以及人才培养的负面转变.

🚀通过简单的知识蒸馏,上海交大团队的模型在AIME数学竞赛上超越了o1-preview,展现了惊人的数学推理能力。

📚该研究利用o1模型的API获取高质量推理数据,并将其用于微调Qwen2.5-Math-72B模型,从而提升了模型的推理能力和输出一致性。

🌐有趣的是,模型不仅在数学领域表现出色,在开放领域问答和安全性测试中也展现了良好的泛化能力,这表明数学问题的系统思维模式可以有效迁移到其他领域。

⚠️作者提出了"技术透明度指数"(TTI)来评估模型复现的透明度,并指出许多团队在数据和方法透明度方面存在不足。

⚖️过度依赖蒸馏可能导致性能上限难以突破、技术创新缺失以及人才培养的负面转变,因此需要在蒸馏和基础技术创新之间找到平衡.

原创 含萧 2024-12-09 16:12 美国

“世间的捷径,皆有代价”

大家好,我是含萧。

近日,在 OpenAI 计划长达十二天的"Shipmas"的前两天发布中,满血版 o1 系列以及强化微调技术 RFT(Reinforcement Fine-Tuning)面世。

其中,完全体 o1 更智能、更快、多模态输入、更擅长指令遵循、编码效能提升、错误率降低约 34%、思考速度提升约 50%。

而 RFT 技术则声称,仅用少量数据(官方说法:_dozens to thousands of high quality tasks_,数十到数千个高质量数据)就可以帮助用户微调出某一领域的专家模型,视频 demo 中仅用 1100 个数据就让 o1-mini 在对应领域的表现超越了 o1,让许多人都对这项新技术振奋不已,也猜测这就是实现 o1 的重要技术之一。

这也引发了我的好奇,o1 的背后究竟藏着什么独门秘技?

“xx 年高考压轴题居然被它解出来了”

“我没写出来的 hard 题它给出了完美解”

...

o1 强大的数学和代码能力让无数人琢磨起它的技术实现。

在之前,一个主流猜想是 o1 很可能使用了 OpenAI 在 23 年发布的一篇论文——

"Let’s Verify Step by Step"

论文中提出了 PRM 模型(过程奖励模型)以及 ORM 模型(结果奖励模型)等技巧。

而前几日,OpenAI 提出的强化微调 RFT,也让人们关注起前段时间字节发布的一篇论文:

"ReFT: Reasoning with Reinforced Fine-Tuning"

它通过监督微调(SFT)和强化学习 RL(PPO 算法)结合,来提高大语言模型在解决数学问题方面的推理能力。

论文中描述的带 Resoning 的 CoT 参与 SFT 和 Warm-up/RL 的两阶段微调,和 OpenAI 在 demo 里提出的概念和方法非常相似,这也给 o1 的技术复现提供了更明确的理论支撑。

但是,这些方法的实现往往过于繁琐且耗费巨大,PRM 需要对 CoT 过程进行打分标注,MCTS 需要解决如何在四阶段高效 rollout 等难题,而 ReFT 需要多个模型为最终效果服务。

在道路尚不清晰的情况下,选择一种理论方法去尝试复现 o1 模型,但是最终发现结果不尽人意,其中的代价是绝大多数研究者和企业都难以承担的。

那么,如果不需要繁琐复杂的技巧来增加变量,只需要利用合成数据进行微调训练,就能达到优异的结果甚至击败 o1-preview 呢?

今天,我想和大家聊聊一篇引人深思的论文。

上海交大的作者们仅用数万条数据,通过简单的蒸馏,就在 AIME2024 评分上超越了 o1-preview

这篇论文对当前 o1 模型复现热潮中缺乏技术透明度的现象提出了质疑,设立了一套技术透明度评测标准,向大众提供一条快速追赶 o1 的捷径的同时,也提醒我们不能做简单的“蒸馏发明家”,需要注意过度依赖蒸馏可能带来的潜在问题。

论文标题:
O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?

论文链接:
https://arxiv.org/abs/2411.16489

开源仓库:
https://github.com/GAIR-NLP/O1-Journey

快速复现类 o1 能力的方法:蒸馏 SFT

在大型语言模型(LLM)时代,训练数据的质量成为模型开发的关键因素。例如,LIMA 仅通过使用 1000 个高质量的提示和回答进行监督微调(SFT),就可以拥有优于使用大量低质量数据训练的模型的表现;Phi-1 利用从 GPT-3.5 合成的高质量数据就在多个基准测试中超越了更大参数量的模型。

而随着市面上通用类 LLM 不断的迭代优化,它们往往具备全面的知识、复杂的推理能力和强大的指令遵循能力。同时,这些大模型使用成本的逐步下降,各种原因让从这些模型中蒸馏高质量数据以训练更小模型的做法日益普遍。

论文的作者们通过深入研究,发现了一个令人惊讶的现象:

通过简单的知识蒸馏,就能让一个基础模型在复杂的数学推理任务上以及泛化性上取得优异的表现。

具体来说,分为两个步骤。

首先,作者们精心挑选和重构了部分公共数据集的数据,,让模型能熟练地产生详细的推理并遵守标准化的输出样式,为后续的蒸馏阶段做好准备。

其次,他们利用 o1 模型的 API 获得高质量且详细的解答过程(即“长链路 CoT”)推理数据,使用这些数据对 Qwen2.5-Math-72B 模型进行第二段 sft 微调,来增强它的推理能力并确保产生精确和连贯输出的一致性。结果显示,他们的模型在美国数学邀请赛(AIME)上的准确率超过了 o1-preview。

模型在 AIME 上的性能对比

有趣的是,作者们还发现,通过在数学问题上的蒸馏训练,模型在其他任务上也表现出了不错的泛化能力。

例如,在开放领域的问答任务中,模型能够给出详细且准确的回答;在安全性测试中,模型表现出了更高的谨慎性,减少了错误和不当的回答。

这表明,数学问题求解中固有的系统思维模式和结构化方法可以有效地转移到其他领域,而模型在蒸馏出来的数学领域数据集微调后,在数学领域能力的提升同样可以辐射到其他领域。

如果只需要简单的蒸馏数据就能达成这种效果,好像还挺划算?

这似乎是一个“低投入、高回报”的捷径,我们为什么还需要去做过程监督,搞强化学习 PPO,优化 CoT?

直接精心蒸馏一个数据集,我的模型就可以“打败”o1 了!

但是,事情往往没有这么简单。

技术透明度指数(TTI)

首先,为了系统地评估和比较各种复现尝试,作者们提出了“技术透明度指数”(TTI),从以下四个方面对 o1 复刻的尝试进行评估:

    数据透明度:数据集的来源、处理和使用是否公开透明。

    方法透明度:研究方法、算法细节和实验设置是否详尽披露。

    评估透明度:模型的性能评估是否公正、全面、可复现。

    资源开源:代码、模型、数据等资源是否对外开放。

他们对多个声称复现 o1 的团队进行了评估,结果显示,大部分团队在 TTI 评分上并不理想,尤其是在数据和方法透明度方面,而本论文的 Part 1 和 Part 2 中构建的模型,在这些方面都有不错的得分。

Part1 论文链接:
https://arxiv.org/pdf/2410.18982

捷径并非长久之计

在文章最后,作者们指出,从 o1 模型进行知识蒸馏的显著成功,为快速复现 o1 类模型提供了一种诱人的捷径。但是,过度依赖简单蒸馏,可能会带来一系列负面影响:

因此,他们呼吁,AI 研究者们应该重视基础技术的研究和创新,保持对第一性原理的探究精神,而不是一味追求捷径。

结语

这篇论文在验证蒸馏数据的有效性的同时,也为我们敲响了警钟。简单的蒸馏方法,虽然能带来一时的成效,但从长远来看,过度依赖蒸馏可能会限制我们的视野和潜力。

这并不是说蒸馏本质上是有问题的——它仍然是一个有价值的高性价比方法。关键在于,不能让蒸馏的便利使我们偏离了更艰难但最终更有价值的本质性创新之路。研究者应该在两者之间找到平衡点,既能通过快速蒸馏应对工作中可能的 ddl 压力,又能不忘初心,坚持技术创新的本质。

毕竟,追寻足迹的影子,永远无法变成光。


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

知识蒸馏 o1模型 数学推理 技术透明度 模型复现
相关文章