云启资本 05月31日 00:53
MiniMax开源首个视觉RL统一框架,推出Orsta模型系列 | 云启伙伴
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax公司发布了其首个视觉任务强化学习(RL)统一框架V-Triune,并推出了基于该框架训练的Orsta模型系列。V-Triune框架旨在通过一个统一的RL系统,联合学习和掌握视觉推理和感知任务,解决了现有RL方法在多任务处理上的局限性。该框架通过三层组件设计和动态IoU奖励机制,显著提升了模型在MEGA-Bench Core基准测试中的性能。MiniMax此举旨在强化其多模态AI能力,并推动通用视觉能力的发展,为后续更大规模模型的应用奠定基础。

🖼️ V-Triune框架是MiniMax推出的首个视觉任务强化学习(RL)统一框架,旨在通过单个后训练流程联合学习视觉推理和感知任务。

⚙️ 该框架采用三层组件设计,包括样本级数据格式化、验证器级奖励计算和数据源级指标监控,以实现多任务的平衡和灵活性。

📊 针对目标检测和定位任务,V-Triune引入了动态IoU奖励,通过分阶段调整阈值,引导模型逐步提升定位精度,解决了冷启动问题。

🚀 基于V-Triune框架,MiniMax开发了Orsta模型系列(7B–32B),在MEGA-Bench Core基准测试中取得了显著的性能提升,尤其是在感知任务上。

💡 MiniMax在多模态领域持续发力,此次开源的V-Triune框架是其为构建通用视觉能力、加速多模态AI能力从研究走向产业应用的重要一步。

2025-05-30 18:03 北京

近日,云启天使轮项目、国内领先模型创业公司MiniMax正式开源其首个视觉任务强化学习(RL)统一框架——V-Triune,并同步发布基于该框架训练的全新 Orsta模型系列(7B–32B),在 MEGA-Bench Core 基准测试中性能显著提升

本期「云启伙伴」带你了解MiniMax如何通过统一视觉RL框架,构建通用视觉能力,强化多模态AI能力。

以下内容转载自“量子位”

仅需一个强化学习(RL)框架,就能实现视觉任务大统一?

现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!

最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。

通过三层组件设计和基于动态交并比(IoU)的奖励机制,弥补了传统RL方法无法兼顾多重任务的空白。

甚至基于V-Triune,MiniMax还一步到位,贴心地给大家开发了全新的Orsta(One RL to See Them All)模型系列(7B至32B),在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

值得注意的是,在论文的作者一栏,MiniMax创始人兼CEO闫俊杰也参与了这项研究。

目前V-Triune框架和Orsta模型都在GitHub上实现全面开源,点击文末链接即可跳转一键获取。

推理感知“两手抓”

视觉任务可以分为推理感知两类,在当前,RL研究主要集中于数学QA和科学QA等视觉推理任务。

而目标检测和定位等视觉感知任务,因亟需独特的奖励设计和训练稳定性保障,还没有得到一个很好的解决方案……

针对上述问题,MiniMax针对性地提出了新框架V-Triune,作为首个面向VLM后训练的统一RL系统,通过三个互补组件核心巧妙实现二者的平衡。

让每个样本自定义其奖励设置和验证器,支持动态路由和权重调整,以处理多种任务需求。

数据模式基于HuggingFace数据集实现,包含以下三个字段:

1. reward_model:样本级定义奖励类型、权重。

2. verifier:指定验证器及其参数。

3. data_source:标识样本来源。

最终实现了多样化数据集的无缝集成,同时支持高度灵活的奖励控制。

采用异步客户端-服务器架构,将奖励计算与主训练循环解耦。

客户端通过代理工作器异步发送请求,而服务器则根据”verifier”字段路由至专用验证器。

主要使用两类验证器:

1. MathVerifyVerifierr:处理推理、OCR和计数任务。

2. DetectionVerifier:处理检测和定位任务,应用动态IoU奖励。

    从而实现在无需修改核心训练流程的情况下,灵活扩展新任务或更新奖励逻辑。

    在多任务多源训练中,按数据源记录以下指标:

    1. 奖励值:追踪数据集特定稳定性。

    2. IoU和mAP(感知任务):记录不同阈值下的IoU和mAP。

    3. 响应长度和反思率:跟踪响应长度分布、截断率,以及15个预定义反思词(如“re-check”)的出现比例。

    该监控机制帮助诊断模型行为(如过度思考或肤浅响应),并确保学习的稳定性。

    此外针对监测和定位任务,团队还创新性地提出了动态IoU奖励,分阶段调整阈值,以缓解冷启动问题,同时引导模型逐步提升定位精度:

    虽然V-Triune提供了可扩展的数据、任务和指标框架,但早期实验显示,联合训练可能会导致评估性能下降、梯度范数突增等不稳定现象,于是团队又通过以下调整逐步解决:

    1. 冻结ViT参数,防止梯度爆炸。

    2. 过滤伪图像特殊词元,确保输入特征对齐,提升训练稳定性。

    3. 构建随机化CoT提示池,降低提示依赖性。

    4. 由于V-Triune基于Verl框架实现,主节点内存压力较大,需解耦测试阶段与主训练循环以管理内存。

    另外值得一提的是,基于开源的Qwen2.5-VL模型,团队还训练出7B和32B的Orsta模型。

    依据4类推理任务(数学、谜题、科学、图表分析)和4类感知任务(物体检测、目标定位、计数、OCR)的训练数据,进行规则和难度的两阶段过滤和训练优化。

    最终实现在MEGA-Bench Core基准测试中,Orsta相比原始模型提升至+14.1%,尤其是在感知任务中,mAP指标显著提高,证明了该统一方法的有效性和可扩展性。

    MiniMax布局多模态领域

    MiniMax作为商汤背景出身的AI六小龙之一,近期在多模态领域可谓动作频频,模型横跨语言、音频、视频。

    例如MiniMax的S2V-01视频模型、MiniMax-VL-01视觉多模态模型以及MiniMax-T2A-01系列语言模型等。

    尤其是广受好评的MiniMax-01系列,包含基础语言模型和视觉多模态模型两种,性能上比肩DeepSeek-V3、GPT-4o等国内外顶尖模型的同时,还首次创新性实现了对新型Lightning Attention架构的大规模扩展。

    最新发布的Speech-02,在AI语言生成上也是一骑绝尘,直接刷新全球权威语音基准测试榜单第一,一举打破OpenAI、ElevenLabs的行业垄断。

    据悉,此番统一视觉任务的RL架构是为后续更大规模模型的通用视觉能力做探索。

    MiniMax的更多开源:

    论文链接:https://arxiv.org/abs/2505.18129

    代码链接:https://github.com/MiniMax-AI/One-RL-to-See-Them-All

    参考链接:

    [1]https://x.com/MiniMax__AI/status/1926949919228600423

    [2]https://huggingface.co/papers/2505.18129

    期待 MiniMax 持续打磨通用视觉能力,以开源为基点,加速多模态AI能力从研究走向产业应用

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    MiniMax V-Triune 强化学习 多模态AI Orsta模型
    相关文章