机器之心 05月03日 16:21
阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云通义点金团队与苏州大学联合发布了推理增强型金融大模型DianJin-R1。该模型融合先进技术和全面数据,专为金融任务设计。其亮点包括全面开源的Reasoning数据集DianJin-R1-Data,整合了FinQA和中国合规检查(CCC)数据集。同时,DianJin-R1-7B和DianJin-R1-32B模型也已开源,通过监督微调和强化学习优化,在复杂金融任务中表现卓越。此外,还通过通义点金平台实现了基于Multi-Agent System的数据合成,单次调用效果媲美高计算成本的多智能体系统。

🚀 DianJin-R1的核心在于其全面开源的 Reasoning 数据集——DianJin-R1-Data,该数据集整合了FinQA和中国合规检查(CCC)数据集,为金融推理任务提供了强大的基础,旨在支持和推动金融领域的研究和应用。

💡 DianJin-R1-7B 和 DianJin-R1-32B 模型已向公众全面开放,这些模型通过监督微调(SFT)和强化学习(RL)两阶段精细优化,在复杂金融任务中表现卓越。其中,DianJin-R1-7B 以其轻量化参数和高效表现,成功媲美行业标杆模型 QwQ,DianJin-R1-32B 更是超越了所有参评模型,包括 DeepSeek-R1,荣膺性能测试的第一名。

🤖 通过通义点金平台实现了基于 Multi-Agent System 的数据合成,构建了数据飞轮和模型优化机制,使得单次调用效果媲美高计算成本的多智能体系统。这一创新展示了在模型优化和智能系统集成上的能力。

🎯 DianJin-R1 通过结合高质量监督、结构化推理生成和基于奖励的强化学习改进,提供了一种可扩展且有效的策略来增强 LLMs 中的金融推理能力。

2025-05-03 12:19 韩国

融合了先进的技术和全面的数据支持,专为金融任务而设计。


本文由阿里云通义点金团队和苏州大学联合完成。


近日,阿里云通义点金团队与苏州大学携手合作,在金融大语言模型领域推出了突破性的创新成果:DianJin-R1。这款推理增强型金融大模型,融合了先进的技术和全面的数据支持,专为金融任务而设计。




全面开源的 Reasoning 数据集DianJin-R1 的独特亮点之一是其全面开源的 Reasoning 数据集——DianJin-R1-Data。该数据集基于通义点金团队去年在 ACL-2024 上发表的 CFLUE Benchmark 上进行的全面升级,整合了 FinQA 和中国合规检查(CCC)数据集,为金融推理任务提供了强大的基础。目前已经开源,旨在支持和推动金融领域的研究和应用。


全面开源的 Financial Reasoning 模型DianJin-R1-7B 和 DianJin-R1-32B 模型已向公众全面开放。这些模型通过监督微调(SFT)和强化学习(RL)两阶段精细优化,在复杂金融任务中表现卓越。开源的强大模型为行业提供了更广泛的应用可能性,推动了金融 AI 的创新发展。


基于通义点金平台的 Multi-Agent System 数据合成更值得关注的是,我们通过通义点金平台实现了基于 Multi-Agent System 的数据合成。通过点金平台,我们构建了数据飞轮和模型优化机制,使得单次调用效果媲美高计算成本的多智能体系统。这不仅展现了 DianJin-R1 的出色性能,也展示了我们在模型优化和智能系统集成上的创新能力。


DianJin-R1-7B 以其轻量化参数和高效表现,成功媲美行业标杆模型 QwQ,展现出不凡的竞争力。而 DianJin-R1-32B 更是超越了所有参评模型,包括 DeepSeek-R1,荣膺性能测试的第一名,彰显了我们团队在人工智能和金融科技领域的卓越创新能力。


我们的评测基准不同于传统标准,DianJin-R1 不仅严谨测试了金融领域的三大核心任务,还特别引入了两个通用领域的数据集进行综合评估。这一全新方法不仅证明了 DianJin-R1 在专业金融领域的显著提升,也展示了其在通用任务中的表现。

DianJin-R1 的发布,不仅推动了金融科技的智能化进程,也进一步巩固了我们在金融大模型领域的领先地位,让我们期待 DianJin-R1 能在更多领域释放其强劲潜能。


背景


近年来,大型语言模型(LLMs)的进步引发了增强其推理能力的浓厚兴趣。像 OpenAI o1、DeepSeek R1 和 QwQ 等模型已经显示出,通过显式建模推理过程,可以显著提高在复杂任务上的表现。


尽管取得了这些改进,最近在金融基准上的评估揭示出,由于需要领域特定的知识、精准的数值推理以及严格遵循监管要求,金融领域的推理仍然特别具有挑战性。有效应对这些挑战需要专门的推理策略,能够处理结构化的金融信息和开放性问题解决。


为此,我们推出了 DianJin-R1,这是一种融合推理增强监督和强化学习来提高金融推理任务表现的 LLM。


DianJin-R1-Data 构建


首先通过三个主要来源构建了高质量的推理数据集 DianJin-R1-Data:CFLUE、FinQA 以及我们的专有合规数据集,用于中国合规检查(CCC)任务。






基于 Multi-Agent 系统的数据合成样例


DianJin-R1 两阶段训练


对于监督微调(SFT),我们基于 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 训练了 DianJin-R1-7B 和 DianJin-R1-32B,生成的推理过程和最终答案采用结构化输出格式。为了进一步提高推理质量,我们应用了群体相对政策优化(GRPO),这是一种强化学习算法,引入了两个奖励信号:一种格式奖励以鼓励结构化输出,还有一种准确性奖励以促进答案的正确性。这些机制引导模型生成连贯、可验证的推理路径和可靠的答案。



实验结果


我们对 DianJin-R1 模型以及其他通用领域的推理和非推理模型进行了评估,评估范围包括 CFLUE、FinQA、CCC、MATH-500 和 GPQA-Diamond 等多样化的基准。结果表明,增强推理的模型在金融领域始终优于其对应的非推理模型。特别是,单独在 CFLUE 上进行训练在所有任务中都取得了显著提升,结合所有数据集进一步增强了性能。我们的分析还强调了强化学习的益处,尤其当奖励信号与任务领域对齐时。


最后,我们在 CCC 数据集上展示了这一方法的实际应用,采用 LLMs 构建的 Multi-Agent 系统进行基于条件的合规检查。通过为工作流中的每个决策节点分配专门的代理,该系统有效地整合了中间推理步骤,最终做出合规判断。



结论


综上所述,DianJin-R1 通过结合高质量监督、结构化推理生成和基于奖励的强化学习改进,提供了一种可扩展且有效的策略来增强 LLMs 中的金融推理能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DianJin-R1 金融大模型 阿里云 Multi-Agent System
相关文章