量子位 前天 17:47
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MathFusion,由上海AI Lab、人大高瓴等团队联合提出,通过三种“融合策略”增强大语言模型解决数学问题的能力。该研究通过将不同的数学问题巧妙结合,生成更复杂的问题,从而提升模型对问题间深层联系的捕捉能力。实验结果表明,MathFusion在多个基准测试中显著提升了模型的准确率和数据效率,并且展现出强大的泛化与扩展能力,为大模型在数学领域的应用提供了新的思路。

💡 MathFusion 提出了三种核心的“融合策略”:顺序融合、并列融合和条件融合。顺序融合将问题串联,前一个问题的答案作为后一个问题的输入;并列融合将相似问题融合,识别和融合数学概念;条件融合则创造比较和选择的场景。

🔄 通过这些融合策略,MathFusion 生成了全新的融合数据集 MathFusionQA。例如,原始问题A与问题B通过顺序融合,生成了一个需要先计算船载客量,再以此计算巴士载客量的复合问题。

📈 实验结果显示,在多个基准测试中,MathFusion 在多个基础模型上都取得了显著的性能提升,平均准确率提升了18个百分点。同时,MathFusion 保持了极高的数据效率。

✨ 组合融合策略(顺序、条件和并行融合)的效果优于单一融合策略,且基础模型性能越弱,组合融合策略带来的提升越大。MathFusion 在 in-domain 和 out-of-domain 测试中均表现优异,展现了强大的泛化能力。

🔍 MathFusion 带来的提升源自于问题融合本身,且“问题融合”的思路与“挖掘难题”的思路是互补的。MathFusion 目前主要在 GSM8K 和 MATH 等简单数学问题上验证,未来有望扩展到更难的问题和其他领域。

关注前沿科技 2025-06-17 15:42 北京

通过三种“融合策略”,将不同的数学问题巧妙地结合起来

MathFusion团队 投稿量子位 | 公众号 QbitAI

当前数学领域的数据生成方法常常局限于对单个问题进行改写或变换,好比是让学生反复做同一道题的变种,却忽略了数学题目之间内在的关联性。

为了打破这种局限,让大模型学会“串联”与“并联”知识,上海AI Lab、人大高瓴等团队联合提出了MathFusion,通过指令融合增强大语言模型解决数学问题的能力。

仅使用45K的合成指令,MathFusion在多个基准测试中平均准确率提升了18.0个百分点,展现了卓越的数据效率和性能。

越靠左上角,模型表现越好且数据效率越高。

核心思想:三种“融合策略”

MathFusion通过三种“融合策略”,将不同的数学问题巧妙地结合起来,生成封装了二者关系和结构的新问题。

首先从现有数据集(GSM8K、MATH)中识别出适合融合的问题对(主要通过embedding search),然后应用融合策略生成新问题,并利用GPT-4o-mini来生成解答。通过这三种策略,生成了一个全新的融合数据集MathFusionQA。

融合实例:不同策略的融合结果

为了更直观地理解这三种融合策略,来看一个具体的例子:

原始问题

顺序融合

学校组织一次去博物馆的旅行,需要运送学生和老师。首先,请计算一艘船在2天内的载客量,这艘船每天航行4次,每次最多可载12人。然后,将这个总载客量作为第一辆巴士的人数。已知第二辆巴士的人数是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。请问总共有多少人去了博物馆?

并列融合

一所学校组织一次到博物馆的实地考察,并租用了4辆巴士和一艘船6。这艘船一天航行2次,每次载客12人。每辆巴士的人数不同:第一辆巴士有12人,…,第四辆比第一辆多9人。请计算在2天内,船和所有巴士总共可以运送多少人?

条件融合

一个社区正在组织两种不同的郊游活动。对于湖上游览,一艘船每天运营4次,载客量为12人,他们计划让这艘船服务2天。与此同时,一所学校正在安排一次有4辆巴士的博物馆之旅11。第一辆巴士有12人,第二辆是第一辆的两倍,第三辆比第二辆少6人,第四辆比第一辆多9人。考虑到这些安排,哪种交通方式的载客能力更强?

实验结果:有效捕捉问题间深层联系

在MathFusionQA的基础上,使用三种融合策略——顺序、并行和条件——对模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)进行微调。实验得到以下发现:

显著提升模型性能与效率:与标准训练方法(只在GSM8K和MATH上训练)相比,MathFusion在多个base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了稳定的性能提升。并且,MathFusion在大幅提升性能的同时,保持了极高的数据效率,用远少于其他方法的数据量就达到了良好的效果。

策略之间优势互补:将顺序融合、条件融合和并行融合三种策略结合使用,组合融合策略始终优于每种单一融合策略。另外,基础模型性能越弱,组合融合策略带来的提升就越大。在所有基准测试中,组合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

强大的泛化与扩展能力:MathFusion不仅在in-domain测试中表现优异,在更具挑战性的out-of-domain基准测试中同样超越了标准模型。

对MathFusion做进一步的分析,有以下几点发现:

总的来说,通过生成结构更多样、逻辑更复杂的合成问题,MathFusion有效地增强了模型捕捉问题间深层联系的能力。

但目前MathFusion还只在GSM8K、MATH这种比较简单的数学问题,以及short cot solution的数据集上进行了验证,有待进一步扩展到更难的数学问题、long cot solution以及其他领域的数据上。

论文链接: https://arxiv.org/abs/2503.16212代码库:https://github.com/QizhiPei/MathFusion

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MathFusion 大语言模型 数学问题 融合策略 AI
相关文章