智源社区 14小时前
WAIC抢先爆料:金融“黑马”大模型超DeepSeek刷新SOTA,论文已上线
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

蚂蚁数科发布了其金融推理大模型Agentar-Fin-R1,该模型在金融领域展现出卓越的性能,并在MATH、GPQA等通用推理基准上与GPT-o1、DeepSeek R1等超大模型比肩。Agentar-Fin-R1专注于解决金融业务中的行业痛点,如数据的严苛要求、幻觉和合规问题。模型基于Qwen3优化,拥有更专业的数据标签体系、高效的加权训练算法以及与实际业务场景结合的自主进化能力。蚂蚁数科同时提出了新的金融大模型评测基准Finova,以更全面地评估模型在智能体执行任务、复杂推理和安全合规方面的能力。Agentar-Fin-R1在Finova基准上取得了领先成绩,彰显了垂直领域模型在特定任务中的显著优势。

🌟 **Agentar-Fin-R1模型性能卓越,金融与通用推理能力兼备:** 蚂蚁数科新发布的Agentar-Fin-R1模型,不仅在Fineva、FinEval、FinanceIQ和蚂蚁数科自研的Finova等金融评测基准上刷新了SOTA(State-of-the-Art)记录,超越了业界开源金融大模型,还在MATH、GPQA等通用推理基准上达到了与GPT-o1、DeepSeek-R1等超大尺寸通用推理模型相当的水平,实现了专业化与通用能力的有效平衡。

🚀 **针对金融业务痛点进行深度优化:** 该模型着眼于解决大模型在实际金融业务场景中遇到的挑战,包括金融问题的复杂性(涉及法规、风险、实时数据)、对数据、幻觉和合规的严苛要求,以及金融决策的可信度和可解释性。Agentar-Fin-R1通过精细化的金融任务分类体系、千亿级金融专业数据语料以及可信数据合成等方式,确保模型能够理解专业术语、监管细节,并提供透明可审计的推理步骤。

📊 **创新评测基准Finova,更贴近真实金融场景:** 蚂蚁数科为更准确地评估模型在实际部署中的效用,提出了名为Finova的新评测基准。Finova从智能体执行任务能力、复杂推理能力和安全合规能力三个维度,考察模型在金融意图识别、金融槽位识别、金融工具规划、金融表达生成、金融数学计算、代码理解、多步骤逻辑推理以及安全威胁防范、合规监管理解等方面的综合表现,共包含1350道金融难题。

💡 **高效训练优化与多维度可信保障:** Agentar-Fin-R1采用了“加权训练”策略,通过难度感知加权训练框架提升数据利用效率,并结合标签引导合成和智能选择。模型训练采用两阶段策略,先进行知识注入,再通过强化学习和目标微调强化复杂推理能力。同时,数据获取上实现了源头可信(蚂蚁金融积累)、合成可信(双轨多智能体协作)和治理可信(人工抽样、奖励模型打分过滤),确保数据的高质量和安全性。

📈 **垂直领域模型在金融行业的显著优势:** 结果表明,Agentar-Fin-R1这类垂直领域模型在特定金融任务上的表现远超通用模型,这得益于蚂蚁数科在金融领域的长期积累、行业理解和数据优势。Agentar品牌作为蚂蚁集团企业级智能体服务,已服务众多金融机构,并推出了大量金融智能体解决方案,显著提升了一线员工的工作效率,展现了AI技术重构企业核心场景的强大能力。

又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。

今年会有哪些看点?你别说,我们还真在扒论文的过程中,发现了一些热乎线索。

比如蚂蚁数科的金融推理大模型,发布会还没开,技术论文已悄咪咪上线。

金融领域的推理大模型,你可以理解为金融领域的DeepSeek,带着SOTA的刷榜成绩来了。

同样是“杭州”背景科技公司,蚂蚁数科。

不仅在各项金融测评集上刷新SOTA,在MATH、GPQA等通用推理基准中,也有比肩DeepSeek R1,GPT-o1等超大尺寸推理模型的水平。

而且论文也把技术细节全部公开讲清楚了。

嘿嘿嘿,留给蚂蚁数科自己发布会上当新闻来讲的东西,不多了。

模型出厂即专家

新模型名为Agentar-Fin-R1,一共有两个不同参数版本:8B32B

蚂蚁数科的研究出发点很务实,就是要突破大模型应用在实际金融业务场景中遇到的行业问题

与通用场景不同,金融应用在数据、幻觉和合规方面,有着更严苛的要求。核心面临的挑战有三点:

    金融问题的复杂性:涉及法规、风险和实时数据,AI系统必须具备快速学习和适应的能力。通用大模型虽然会推理,但对专业术语、监管细节常常“一脸懵”。

    可信度和可解释性:金融决策关乎重大利益,出错代价高。每一个推理步骤都必须透明可审计,确保决策过程的可信度和可解释性。

    金融大模型评测集:业界缺少围绕真实金融业务场景,验证复杂任务推理、智能体应用等关键能力的金融大模型评测集。

针对于此,Agentar-Fin-R1基于Qwen3,从数据采集、训练框架、任务分类等角度出发,实现了针对金融任务的深度优化。

从效果上来看,首先,Agentar-Fin-R1在所有金融评测基准上——包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova——均达到业界最优水平,超越业界开源金融大模型,也包括GPT-o1、DeepSeek-R1等超大尺寸通用推理模型

还做到了兼顾专业与通用,在实现金融专业化的同时,通用推理能力没有明显损失。


Agentar-Fin-R1与Qwen3的对比

具体实现方法主要包括以下创新:

    更专业全面的金融数据标签体系,让模型“出厂即专家”;

    更高效的加权训练算法,大幅降低大模型应用门槛;

    模型能力结合真实业务场景自主进化

我们逐一详细拆解。

更专业的金融任务数据标签体系

首先,训练行业大模型需要对行业知识进行系统化的学习,

针对金融任务纷繁复杂的实际情况,蚂蚁数科团队构建了精细化的金融任务分类体系,覆盖银行、证券、保险、基金、信托等全场景。并将复杂的金融领域任务分解为精准定义的类别,比如“意图识别”、“风险评估”、“合规检查”等等。

基于千亿级金融专业数据语料,再经过专门设计的可信数据合成和CoT数据精标,构建了迄今已知最专业最全面的金融领域训练数据集。

这样做的好处是,相当于打造了一个“课程大纲”,来作为整个开发流程的指导框架。

不仅能指导数据处理和训练工作流,还实现了系统化的任务向导优化,确保金融推理场景的全面覆盖。

多维度可信保障

以此为框架,对于垂直领域模型,最为关键的数据如何获取?

蚂蚁数科团队通过三个层次来确保数据的高质量。

首先,是源头可信。背靠蚂蚁在金融领域的长期积累以及真实数据,构建专业全面的金融领域训练数据集,并供下游进行可信的数据合成。

其次,是合成可信。引入可验证的双轨多智能体协作数据合成框架,也就是让多个AI智能体相互讨论相互审核,来保证合成数据质量。

最后,治理可信。通过人工抽样标注,基于自研奖励模型的打分过滤,去重、去污、去毒等全面数据处理,保证数据安全。

高效训练优化

训练方面,蚂蚁数科团队创新采用“加权训练”,以最大化提升数据利用效率及训练效率。

简单来说,就是动态分配训练资源,让模型在较难的任务上多投入精力学,在简单任务上少花精力。

具体到数据效率方面,是通过难度感知加权训练框架来挖掘数据潜力,结合标签引导合成和智能选择提升数据利用率。

在训练效率方面,则采用两阶段训练策略:

    第一阶段,先进行知识全面注入,让模型把金融知识吃透;

    第二阶段,专挑最难、最弱的题目用强化学习+目标微调,强化模型复杂推理能力。

除此之外,研究团队还构建了全面的归因系统,实现快速瓶颈识别和针对性改进。

相较于传统的SFT和RL,这种高效训练优化策略不仅能够缩短模型迭代周期、降低计算成本,更重要的是能够快速响应金融市场的动态变化,确保模型在风险控制、投资决策、合规监管等真实业务场景中,及时部署,自主“进化”。

同时,这也是模型保留通用能力的关键所在。

Finova:更严苛的评估标准

值得关注的一点是,这次蚂蚁数科不仅是在提升模型能力上下了功夫。为了验证模型在真实场景中的有效性,他们还在“考试题目”上下了功夫。

前文提到,在这项研究中,蚂蚁数科自己提出了一个新的评测基准Finova

为什么要提新标准?原因很简单:现有的金融测评集,太简单了

就像对于通用模型,人类专家们绞尽脑汁设置“人类最后的考试”,极限考验顶尖模型的性能,蚂蚁数科也希望在金融领域,能面向实际部署,更准确地评估模型的真实效用。

具体来说,Finova是从智能体执行任务能力复杂推理能力安全合规能力这三个真实场景中最受关注的维度,来对模型进行考察,共包含1350道金融难题。

智能体能力评估

从实际业务需求出发,标准化评估金融智能体的核心能力:

    金融意图检测:精准识别投资咨询、产品询问、风险评估等复杂金融场景中的用户真实需求

    金融槽位识别:准确抽取和结构化“万能险”、“科创板”等专业金融术语,构建金融文本理解基础

    金融工具规划:智能解析用户需求并推荐匹配的金融工具,如投资组合分析、基金对比等

    金融表达生成:基于多种来源的数据源综合生成准确可靠、严格符合监管要求的专业金融表达

举个例子,面对“能告诉我瑞士法郎兑加元现在报价多少,近期加元为什么跌得这么凶”这样的问题,模型理解用户意图为对“外汇”进行信息查询+分析解读,识别“瑞士法郎”、“加元”等槽位,调用相应查询工具,最后综合多种信息源生成回答。

复杂推理能力

深度整合金融数学计算、代码理解和多步骤复杂逻辑推理,模拟真实金融决策场景:

涵盖资产估值、投资组合优化、风险分析等核心金融业务;考验模型在历史数据分析、结果预测、复杂场景推理等方面的综合表现。

在这方面,感受一下,Finova的真题如下:

某工业公司2024年4月的财务数据显示:边际贡献总额为 $60,000,净利润为 $25,000。预计5月份销售量将同比增长5%,假设公司成本结构和固定成本保持不变。则该公司在此期间的经营杠杆系数(DOL)为 __,对应的净利润预期增幅为 __%(结果分别保留一位小数和整数位)。

安全合规验证

安全防护方面,识别和防范恶意输入、数据泄露、系统滥用等安全威胁。

合规监管方面,深度理解反洗钱法规、数据隐私保护、投资者保护、风险披露等多元化监管框架。

可以看到,在Finova这个新基准下,参与测试的模型评分相较于其他基准都有明显的下降,甚至得分几乎砍半。

其中,蚂蚁数科的Agentar-Fin-R1-32B达到了最高的69.93分,大幅超越了同尺寸金融推理大模型Dianjin-R1-32B(56.02分),也超越了超大尺寸推理模型DeepSeek-R1(61.28分)和GPT-o1(60.46分)。

这进一步凸显了垂直领域模型在特定任务中的显著优势。

蚂蚁数科SOTA意外吗?

从实验结果可以看出,Agentar-Fin-R1这样的垂直模型,是行业赛道中的“隐藏王牌”,在实际应用场景中往往能比通用模型更快落地、发挥作用。

这也是为什么——是蚂蚁数科带来了这次最新的金融行业SOTA模型。

有必然性,基因就在那里。作为蚂蚁集团的科技商业化独立板块,蚂蚁数科长期浸润一线,天然具备对金融场景更深度的行业理解和数据积累。

并且从2017年起,蚂蚁数科已经布局AI,致力于以AI技术深度重构企业核心场景。

目前,在金融领域,蚂蚁数科累计已服务100%国有股份制银行,超60%城商行,以及数百家金融机构,支持金融业的高效数智化转型。

也有顺势而为的准确趋势判断。

实际上,作为蚂蚁数科的企业级智能体服务品牌,Agentar已经成为蚂蚁集团在金融领域AI实践的一个经验输出窗口。

Agentar链接数百个金融MCP,为金融机构规模化应用大模型提供强大的数据生态,并已联合金融行业机构推出超百个金融智能体解决方案,覆盖银行、证券、保险、通用金融等四大领域,能提升一线员工工作效率超80%。

现在,新模型出炉,可以说是蚂蚁数科本身行业洞察+数据积累+AI能力的一次集中体现。

当然啦,技术论文实现SOTA之外,作为模型和产品,更重要的还是实际应用表现。

建议蚂蚁数科的朋友,发布会多讲讲这方面的。

论文和性能成绩,我们已经替你们抢跑了哟~

论文地址:https://arxiv.org/abs/2507.16802

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

蚂蚁数科 金融大模型 Agentar-Fin-R1 AI推理 Finova
相关文章