昆仑万维集团 04月24日 19:52
Skywork-R1V 2.0版本再开源!最强高考数理解题利器、实现多模态推理再进化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

昆仑万维开源了多模态推理模型Skywork-R1V 2.0,这是R1V系列的全新升级版本。该模型在视觉和文本推理能力上实现了双重提升,尤其在中文场景下的理科题目推理方面表现出色,可作为AI解题助手。R1V 2.0在多个权威基准测试中刷新了开源SOTA纪录,并引入了多模态奖励模型Skywork-VL Reward和混合偏好优化机制MPO,以提升模型的泛化能力。此外,选择性样本缓冲区机制SSB的运用,突破了强化学习的瓶颈,为多模态智能体的搭建提供了新的基座模型。

🚀Skywork-R1V 2.0是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,尤其擅长中文场景下的理科学科题目推理,可作为免费AI解题助手。

🏆R1V 2.0在MMMU上取得73.6分,刷新开源SOTA纪录,在Olympiad Bench上达到62.6分,显著领先其他开源模型,多项能力媲美闭源商业模型。

💡技术亮点一:推出了多模态奖励模型Skywork-VL Reward,该模型在视觉奖励模型评测榜单VL-RewardBench中取得了73.1的SOTA成绩,同时在纯文本奖励模型评测榜单RewardBench中也斩获了高达90.1的优异分数。

⚙️技术亮点二:R1V 2.0引入了MPO(混合偏好优化)机制,并在偏好训练中充分发挥 Skywork-VL Reward 奖励模型的指导作用,有效实现了推理能力与通用能力的协同提升。

📚R1V 2.0 创造性地引入了选择性样本缓冲区机制(Selective Sample Buffer, SSB),通过保留历史训练中带有非零优势的关键样本,并在后续训练中优先抽样使用,大幅提升训练信号的效率。

原创 昆仑万维 2025-04-24 10:20 北京

3 月 18 日,昆仑万维正式开源首款工业界多模态思维链推理模型 Skywork-R1V,开启多模态思考新时代。继 Skywork-R1V 首次成功实现“强文本推理能力向视觉模态的迁移”之后,昆仑万维再度发力,今天正式开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(以下简称 R1V 2.0) 。



-模型权重

hf.co/Skywork/Skywork-R1V2-38B

-代码仓库

github.com/SkyworkAI/Skywork-R1V

-技术报告

https://arxiv.org/abs/2504.16656


01

R1V 2.0 性能全面提升并开源,视觉与文本推理能力双管齐下


Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异,真正实现多模态大模型的“深度 + 广度”统一。升级后的 R1V 2.0 模型颇具亮点:


-中文场景领跑:理科学科题目(数学/物理/化学)推理效果拔群,打造免费AI解题助手;

-开源巅峰38B 权重 + 技术报告全面开源,推动多模态生态建设;

-技术创新标杆多模态奖励模型(Skywork‑VL Reward) 与 混合偏好优化机制(MPO)全面提升模型泛化能力;选择性样本缓冲区机制(SSB),突破强化学习“优势消失”瓶颈。


在多个权威基准测试中,R1V 2.0 相较于 R1V 1.0 在文本与视觉推理任务中均实现显著跃升。无论是专业领域任务,如数学推理、编程竞赛、科学分析,还是通用任务,如创意写作与开放式问答,R1V 2.0 都呈现出极具竞争力的表现:


-在 MMMU 上取得 73.6 分,刷新开源 SOTA 纪录

-在 Olympiad Bench 上达到 62.6 分,显著领先其他开源模型;

-在 MathVision、MMMU-PRO 与 MathVista 等多项视觉推理榜单中均表现优异,多项能力已可媲美闭源商业模型,堪称当前开源多模态推理模型中的佼佼者。


在与开源多模态模型的对比中,R1V 2.0 的视觉推理能力(在众多开源模型里)脱颖而出。

如下图所示,R1V2.0 也展现出媲美商业闭源多模态模型的实力。

而在文本推理方面,在 AIME2024 和 LiveCodeBench 等挑战中,R1V 2.0 分别取得了78.9 分和 63.6 分,展现出了人类专家级数学与代码理解能力。在与专用文本推理模型对比中,R1V2.0 同样展现出卓越的文本推理能力。

让我们一起测试一些高考题,检验它的「985级」解题实力!

题目1:(来源:2022安徽皖南八校临门一卷-物理14题)

题目2:(来源:2022广西南宁模拟改编)

题目3:(来源:2021高考16题)

面对图文并茂、逻辑复杂的高考题目,R1V 2.0 展现出完整的图像理解与推理能力,稳稳给出正确答案,充分验证其实战能力。推理分析思考了满满几页给出了正确答案,现在就算让 R1V 2.0 去参加高考,也是妥妥的 985 院校水平。


02

技术亮点一:推出多模态奖励模型 Skywork-VL Reward,全面开源


自 R1V 1.0 开源以来,昆仑万维团队收获了来自全球开发者与研究者的广泛反馈。在模型推理能力显著提升的同时,团队也发现,过度集中于推理任务的训练,会限制模型在其他常规任务场景下的表现,影响整体的泛化能力与通用表现。

为实现多模态大模型在“深度推理”与“通用能力”之间的最佳平衡,R1V 2.0 引入了全新的「多模态奖励模型 Skywork-VL Reward」「规则驱动的混合强化训练机制」。在显著增强推理能力的同时,进一步稳固了模型在多任务、多模态场景中的稳定表现与泛化能力。

Skywork-VL Reward,开启多模态强化奖励模型新篇章:

当前,行业中多模态奖励模型的缺乏,已成为强化学习在 VLM(Vision-Language Models)领域进一步发展的关键瓶颈。

现有奖励模型难以准确评价跨模态推理所需的复杂理解与生成过程。为此,昆仑万维推出了 Skywork‑VL Reward模型,既可为通用视觉语言模型(VLM)提供高质量奖励信号,又能精准评估多模态推理模型长序列输出的整体质量,同时也可以作为并行线上推理最优答案选择的利器。

这种能力使得 Skywork-VL Reward 模型在多模态强化学习任务中具有广泛的适用性,促进了多模态模型的协同发展:


-跨模态引领者:率先提出多模态推理与通用奖励模型,推动多模态强化学习;

-榜单标杆:在视觉奖励模型评测中名列第一,7B 权重与技术报告全面开源;

-信号全覆盖:支持从短文本到长序列推理的多元化奖励判别。


Skywork-VL Reward 在多个权威评测榜单中表现优异:在视觉奖励模型评测榜单 VL-RewardBench 中取得了 73.1 的SOTA成绩,同时在纯文本奖励模型评测榜单 RewardBench 中也斩获了高达 90.1 的优异分数,全面展示了其在多模态和文本任务中的强大泛化能力。

为回馈社区和行业,团队也将 Skywork-VL Reward 完整开源:


-模型权重

https://huggingface.co/Skywork/Skywork-VL-Reward-7B

-技术报告

https://github.com/SkyworkAI/Skywork-R1V/blob/main/SkyworkVL_RM.pdf



03

技术亮点二:引入多重优化策略提升核心效果


长期以来,大模型训练面临“深度推理提升”与“通用能力保持”的难以兼得难题。为解决这一“推理–通用”的能力跷跷板问题,以及解决通用问题没有直接可验证的答案的挑战,R1V 2.0 引入了 MPO(Mixed Preference Optimization,混合偏好优化) 机制,并在偏好训练中充分发挥 Skywork-VL Reward 奖励模型的指导作用。

和 R1V 1.0 思路类似,我们使用提前训练好的 MLP 适配器,直接将视觉编码器 internVIT-6B 与原始的强推理语言模型 QwQ-32B 连接,形成 R1V 2.0-38B 的初始权重。这样一来,R1V  2.0 在启动即具备一定的多模态推理能力。

在通用任务训练阶段,R1V 2.0 借助 Skywork-VL Reward 提供的偏好信号,引导模型进行偏好一致性优化,从而确保模型在多任务、多领域下具备良好的通用适应能力。实验证明,Skywork-VL Reward 有效实现了推理能力与通用能力的协同提升,成功实现“鱼与熊掌兼得”。

在训练深度推理能力时,R1V 2.0 在训练中采用了 基于规则的群体相对策略优化GRPO(Group Relative Policy Optimization 方法。该策略通过同组候选响应之间的相对奖励比较,引导模型学会更精准的选择和推理路径。

MPO 质量损失与生成损失:

MPO的目标是让模型学习:


-响应对之间的相对偏好

-单个响应的绝对质量

-以及生成优选响应的完整过程


MPO 的训练目标为三种损失函数的加权组合:

其中:

质量损失(BCO)

BCO 是一种将响应质量映射为二元标签的策略,使用一个判别器将好响应标记为1,差响应标记为0。其损失函数为:

生成损失(Generation Loss: SFT)

我们发现,基于 MPO 的训练策略在提升多模态推理能力方面表现出显著优势。不仅如此,模型在 VisualVQA  和幻觉检测 基准测试中的表现也优于其未采用 MPO 的版本,表明其通用能力得益于更强的推理能力与幻觉减弱而同步提升

相比之下,MPO 显著优于 DPO 和传统的 SFT 方法。我们观察到,直接偏好优化(DPO)在链式思维(CoT)推理任务中更容易导致响应重复或推理过程混乱,而 MPO 通过引入多种损失协同优化,有效缓解了这一问题。

GRPO 选择性样本缓冲区(SSB):

在实际强化学习训练过程中,我们发现 GRPO 算法存在一个核心挑战:优势消失(Vanishing Advantages)

当某个查询组内的所有候选响应均为“统一正确”或“统一错误”时,组内响应的相对奖励差异趋于消失,导致优势(advantage)归零,无法产生有效的策略梯度。这种现象在训练后期愈发严重,有效样本占比从初期的 60% 下降至 10% 以下,严重影响了策略更新的效率。

为了缓解“优势消失”的训练瓶颈,R1V 2.0 创造性地引入了 选择性样本缓冲区机制(Selective Sample Buffer, SSB)

SSB 是一种高效的样本复用技术,通过保留历史训练中带有非零优势的关键样本,并在后续训练中优先抽样使用,大幅提升训练信号的效率。值得注意的是,这项技术可以同时应用于离线和在线采样过程中,以充分提升样本在算法优化中的利用率。


-优先采样机制:根据样本优势值的绝对值进行加权抽样,强化对有信息量样本的学习;

-低成本高回报:通过反复利用高价值样本,极大减少训练成本;

-效果显著:即使使用极少量样本,依然能够获得与完整训练相当甚至更优的性能表现。


SSB 的引入,不仅显著改善了训练的有效样本密度,还有效缓解了模型在训练中期趋于饱和的问题。其在 R1V 2.0 中的应用,已经被实验证明是提升推理能力与训练效率的关键一环。

R1V 2.0 所采用的多模态强化训练方案,标志着大模型训练范式的又一次重要革新,也再次验证了强化学习在人工智能领域无法撼动的地位。通过引入通用性更强的奖励模型 Skywork-VL Reward,以及高效稳定的样本利用机制 SSB,我们不仅进一步提升了R1V系列模型在复杂任务中的推理能力,同时也将开源模型跨模态推理泛化能力提升到了全新高度。

R1V 2.0 的诞生,不仅推动了开源多模态大模型在能力边界上的突破,更为多模态智能体的搭建提供了新的基座模型。


04

面向AGI的持续开源


最近一年以来,昆仑万维已陆续开源多款核心模型:

开源系列



Skywork-R1V 系列:38B 视觉思维链推理模型,开启多模态思考时代;

Skywork-OR1(Open Reasoner 1)系列:中文逻辑推理大模型,7B和32B最强数学代码推理模型;

SkyReels系列:面向AI短剧创作的视频生成模型;

Skywork-Reward:性能卓越的全新奖励模型。


这些项目在 Hugging Face 上广受欢迎,引发了开发者社区的广泛关注与深入讨论。

我们坚信,开源驱动创新,AGI 终将到来。

正如 DeepSeek 等优秀团队所展现的那样,开源模型正逐步弥合与闭源系统的技术差距,乃至实现超越。R1V 2.0 不仅是当前最好的开源多模态推理模型,也是我们迈向 AGI 路上的又一重要里程碑。昆仑万维将继续秉持“开源、开放、共创”的理念,持续推出领先的大模型与数据集,赋能开发者、推动行业协同创新,加速通用人工智能(AGI)的实现进程。







往期推荐
01
 全球首个音乐推理大模型Mureka O1发布


02
 开源中国首个面向AI短剧的SkyReels-V1
03
 昆仑万维发布Matrix-Zero世界模型
04
 天工AI正式上线DeepSeek R1+联网搜索
05
 天工大模型4.0 o1版和4o版正式上线

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

昆仑万维 Skywork-R1V 2.0 多模态推理 开源模型 人工智能
相关文章