Skywork-R1V 3.0正式开源，高考数学142分，多学科推理MMMU达76高分，刷新开源模型性能上限

昆仑万维集团 07月09日 19:53

昆仑万维发布并开源Skywork-R1V 3.0版本，通过强化学习策略提升模型跨模态推理能力，在复杂逻辑建模与跨学科泛化方面取得显著进展。该模型在多个权威评测中取得优异成绩，展现出卓越的跨领域推理能力，为教育、科研、医疗等领域提供坚实的技术基座。

🔍Skywork-R1V 3.0通过强化学习策略深度激发模型的跨模态推理能力，在复杂逻辑建模与跨学科泛化方面实现双重飞跃，展现出卓越的跨领域推理能力。

📈在权威的综合性多模态评测MMMU中，Skywork-R1V 3.0取得了76.0的开源模型最高成绩，并在2025年高考数学新一卷上取得了142分的突出成绩，标志着开源多模态大模型在复杂跨学科推理任务上迈上前所未有的新高度。

🧠Skywork-R1V 3.0通过精巧的强化学习策略和关键熵驱动的模型判别机制，高效激发了模型本身潜在的推理能力，实现了跨越式提升。

🌐Skywork-R1V 3.0不仅在数学、物理等传统理工科推理任务中表现出色，在地理、历史、人文、医学、艺术、商业、工程等领域同样表现不俗，为多学科领域的AI应用提供了坚实的技术基座。

🤝昆仑万维已全面开源Skywork-R1V 3.0的所有资源，旨在推动多模态推理社区的进一步发展，并持续面向真实世界中的复杂推理问题，持续推进模型能力的统一化、高效化与可迁移性探索。

原创昆仑万维 2025-07-09 09:57 北京

7月9日，昆仑万维发布并开源Skywork-R1V 3.0版本，其在后训练阶段通过强化学习策略深度激发模型的跨模态推理能力，在复杂逻辑建模与跨学科泛化方面实现双重飞跃。

目前，昆仑万维已全面开源Skywork-R1V 3.0的所有资源，旨在推动多模态推理社区的进一步发展。

Skywork-R1V 3.0下载：

HuggingFace地址：

https://huggingface.co/Skywork/Skywork-R1V3-38B

GitHub地址：

https://github.com/SkyworkAI/Skywork-R1V

技术报告：

https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

打通跨模态推理与跨学科泛化实现从理工科到医疗与艺术的全面智能Skywork-R1V 3.0是昆仑万维多模态模型体系的关键节点与核心基石，成功将深度推理能力泛化到不同学科领域，表现出卓越的跨领域推理能力。它不仅能够胜任数学、物理等传统理工科推理任务，在地理、历史、人文、医学、艺术、商业、工程等领域同样表现不俗。

在权威的综合性多模态评测 MMMU 中，Skywork-R1V 3.0取得了 76.0 的开源模型最高成绩，并且在2025年高考数学新一卷上，R1V 3.0更是取得了142分的突出成绩。

这一里程碑式成绩，标志着开源多模态大模型在复杂跨学科推理任务上迈上前所未有的新高度，为教育、科研、医疗、设计等专业领域的 AI 应用提供了坚实的技术基座，也再次印证了 Skywork 在多学科、多模态推理领域的持续领先。

R1V 3.0的高考数学突出成绩，接近多款顶尖闭源模型，达到了开源多模态推理模型的最优结果，证明了其卓越的实战解题表现和跨场景泛化的稳定性。

R1V 3.0 MMMU达到了76的高分，超越了 Claude-3.7-Sonnet （75.0）和GPT-4.5（74.4）等闭源模型，逼近人类初级专家水平（76.2），Skywork-R1V 3.0在其他重要多学科测评基准上同样表现亮眼。

在更考验视觉推理的 EMMA-Mini(CoT) 上，以开源领先的 40.3 分超过更大尺寸的 Qwen2.5-VL-72B-Instruct和InternVL3-78B等模型，并缩小了与闭源模型 Claude-3.7-Sonnet的差距。

在覆盖中小学知识点的 MMK12 上，R1V 3.0 以 78.5 分再度领跑开源阵营，超越Qwen2.5-VL-72B-Instruct、InternVL3-78B等开源模型以及 GPT-4.5和 GPT-4o等闭源模型。

较上一代模型而言，Skywork-R1V 3.0在物理、逻辑等多个关键领域取得了显著性能提升，成为当前开源领域最强劲的多模态推理模型之一：

物理推理： 在物理领域的权威评测 PhyX-MC-Text-Minimal 和 SeePhys 中，Skywork-R1V 3.0分别取得 52.8 分和 31.5 分的开源最优成绩，充分展现了其在多模态物理推理方面的卓越能力。模型不仅能够精准理解力学、电磁学等基础物理概念，还擅长处理图文结合的复杂物理问题（例如解析受力分析图、电路示意图等专业图表），其物理推理水平已显著超过当前主流开源模型以及GPT-4.5和Gemini 2 Flash等部分闭源模型。

逻辑推理：Skywork-R1V 3.0在多项权威逻辑推理评测中同样表现卓越：在 LogicVista 测试中取得 59.7 分，在 VisuLogic 测试中取得 28.5 分。在 MME-Reasoning 中，Skywork-R1V 3.0更是获得 42.8 分的佳绩，超越了闭源模型Claude-4-Sonnet。这充分体现了Skywork-R1V 3.0在多模态逻辑一致性、条件推理和跨模态因果建模方面的领先能力。

数学推理： 在数学类问题上，R1V 3.0展现出卓越的解题能力。在权威数学评测基准MathVista、MathVerse和MathVision上，R1V 3.0分别取得了77.1分、59.6分和52.6分的优异成绩，领先于Qwen2.5-VL-72B-Instruct、InternVL3-78B、QVQ-72B-Preview等开源模型。

技术亮点：通过精巧的强化学习策略以低成本激发模型本身潜在的推理能力Skywork-R1V 3.0实现跨越式提升，最核心的改进体现在训练算法的创新，即通过精巧的强化学习（GRPO）策略，以及关键熵驱动的模型判别机制，高效激发了模型本身潜在的推理能力。此外，团队也精心构建了高质量的跨学科数据集，通过连接器的定向微调，实现知识的均衡泛化。

亮点1

跨模态推理迁移：冷启动融合强推理能力与 GRPO 强化范式

Skywork-R1V 3.0基于上一代推理模型 Skywork-R1V 2.0 蒸馏数据进行“冷启动”，通过拒绝采样构建高质量多模态推理训练集，指导开源视觉大模型 InternVL-38B（38B 参数）学会多模态推理的基本格式和方法。

随后引入强化学习算法 GRPO（Group Relative Policy Optimization）深度激发模型的推理潜能，成功实现推理能力在图像和文本模态之间的迁移，显著提升其跨模态、多学科场景下的理解与分析表现。

值得一提的是，Skywork R1V 3.0 仅依赖约 1.2 万条监督微调样本和 1.3 万条强化学习样本，便实现高效训练，充分体现了“小数据激发大能力”的优势。

亮点2

关键熵驱动的模型判别机制：辨别“会推理”和“像在推理”

在强化学习训练中，我们发现：经过冷启动监督微调的模型虽能生成“看似”推理风格的回答，并在训练集和验证集上获得较高奖励，但往往只是机械重复已有模式，未真正形成可泛化的推理能力。

为此，Skywork-R1V 3.0引入了独特的关键熵驱动验证机制。我们重点监测模型在输出“Wait…”“Alternatively…”等进入推理环节的关键位置时的输出熵值——具备推理能力的模型在这些位置通常表现出更高的不确定性（高熵），体现思维发散；而仅模仿推理语气的模型则输出低熵、确定性强的内容。

借助这一特征，我们能高效筛选出真正掌握推理能力的权重版本，并剔除“照葫芦画瓢”的检查点。实验证明，这些关键点处的熵值高低与模型真实推理表现高度相关。该机制为强化训练过程中的模型选择提供了一种全新且高效的手段，确保最终挑选出的模型权重确实掌握了可泛化的推理能力。

亮点3

连接器微调与多学科知识矫正：全面提升推理广度

由于强化学习阶段训练数据以数学问题为主，模型虽提升了推理能力，却也导致知识偏向数学领域。为纠正这一偏差并提升跨学科推理能力，Skywork-R1V 3.0在强化学习后引入了针对跨模态连接器的额外微调。

我们基于一万条高质量、多学科、多模态样本对连接器定向再训练，优化不同领域知识的融合。该步骤在保持原有推理优势的同时，显著增强了模型在人文、医学、艺术等非数学领域的感知和理解能力，进一步提升了其全学科范围内的泛化表现。

模型激活机制与课程学习策略层面两项关键发现对开源技术进步有积极意义在Skywork-R1V 3.0的后训练强化学习阶段，团队还开展了一系列精细化实验，以深入观察模型在多模态推理能力激活过程中的变化与关键影响因素。以下是我们在模型激活机制与课程学习策略方面的两项关键发现：

探索1

跨模态连接器（Connector）的冻结带来的影响远大于视觉编码器冻结

多模态推理强化学习过程中相较于文本推理强化来说，核心的不同就是连接器和视觉编码器。在强化学习训练过程中，我们发现视觉编码器（Vision Encoder）是否处于激活（可更新参数）状态，对模型最终性能有显著影响（激活状态下Reward曲线更高且评测结果更优），但其训练过程的稳定性与整体演进轨迹远不如视觉与语言模型之间的连接器（Connector）的激活状态关键。

探索2

课程学习中的分布偏移导致无法从难到易泛化

我们尝试引入分阶段课程学习策略，尝试构建“由易到难”的强化训练流程。实验发现，“由易到难”的课程学习策略虽然有效提高模型处理复杂问题的能力，但由于数据分布差异（Distribution Shift），模型在中低难度任务上的泛化能力反而有所下降。

具体而言，切换到 Hard Set 训练后，尽管模型对对复杂任务的适应在增强（Hard Set 奖励值持续上升），但在统一评测集上的表现却出现分化：中低难度题目的准确率明显下降，部分逻辑与物理子任务的性能也陷入波动或停滞。这一现象表明，模型在 Hard Set 上学到的复杂技巧、特殊模式或高阶策略，虽有助于应对高难度任务，却可能与中低难度问题所依赖的核心推理路径相冲突，最终削弱了其整体泛化能力。

实现多模态智能演化重要跃迁坚持面向AGI持续开源Skywork R1V 3.0 的诞生，代表了昆仑万维在多模态智能演化路径上的又一次关键跃迁，不仅证明了跨模态推理能力在实现通用人工智能（AGI）过程中的关键价值，也为行业提供了一条更低成本、更高效率地激发多模态模型推理潜能的新范式。

凭借创新的强化学习范式与对跨模态融合机制的深刻理解，我们不仅在多个权威评测中刷新了开源模型的性能上限，更展现出多模态推理在复杂任务中的广泛适应性与延展潜力，验证了这一方向所蕴含的巨大可能。

Skywork-R1V 3.0的再次开源，进一步巩固了昆仑万维多模态模型体系在行业内的领先地位，同时为整个行业高效推进AGI研究提供了清晰且可复现的新路径。

2025年以来，昆仑万维已陆续开源多个核心模型，是业内开源 SOTA 大模型最多的 AI 企业之一，覆盖文本、图像、软件工程等多模态方向：

多模态思维链推理模型「Skywork-R1V」系列：成功实现强文本推理能力向视觉模态的迁移；

奖励模型「Skywork-Reward-V2」系列：在七大主流奖励模型评测榜单中全面夺魁；

数学代码推理模型「Skywork-OR1」：在同等参数规模下实现了业界领先的推理性能，进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈；

软件工程（Software Engineering, SWE）自主代码智能体基座模型「Skywork-SWE」：在开源 32B 模型规模下实现了业界最强的仓库级代码修复能力；

空间智能模型「Matrix-Game」：工业界首个开源的 10B + 空间智能大模型；

视频生成系列模型：SkyReels-V1，以及今年 4 月发布的迭代版 —— 全球首个使用扩散强迫框架的无限时长电影生成模型 SkyReels-V2。

我们相信，开放协作才是实现技术进步最快、最持久的路径。未来，我们将面向真实世界中的复杂推理问题，持续推进模型能力的统一化、高效化与可迁移性探索，携手社区、激发创新，构建更加繁荣开放的AI生态。

往期推荐