2025-05-18 21:39 浙江

本周上新模型1656、数据集151、应用645、文章9

🙋魔搭ModelScope本期社区进展：

📟1656个模型：通义万相2.1-VACE-视频生成编辑-14B、WorldPM-72B系列、Step1X-3D、Nexus-Gen、Qwen3系列量化模型等；

📁151个数据集：AudioJailbreak、multiplayer-racing-low-res、AceCode-V1.1-69K 等；

🎨645个创新应用：DreamO、PP-StructureV3 Online Demo 等；

📄 9 篇内容：

ModelScope魔搭25年5月发布月报

阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D，高保真+可控！

通义万相Wan2.1-VACE开源！业内首个视频编辑统一模型！附推理教程

全模态图像模型Nexus-Gen对齐GPT-4o！图片理解生成编辑同时搞定，数据、训练框架、模型全面开源

小米开源MiMo-7B！从预训练到强化学习，解锁语言模型的推理潜能

10分钟，用RAG搭建专业钉钉/飞书客服机器人

“一丹一世界”三等奖 | 木刻时光·细密风经验分享

MCP&RL系统学，打榜赛尽情玩！书生大模型实战营第5期课程玩法双升级，火热报名中

魔搭核心开发者共创会 | 邀请函

模型推荐

通义万相2.1-VACE-视频生成编辑-14B

通义万相2.1-VACE是一款由阿里巴巴开源的多功能AI视频生成与编辑模型，具备文生视频、图像参考生成、视频重绘、局部编辑、背景延展等多种功能，支持文本、图像、视频等多种输入形式。它采用统一模型架构，支持细粒度控制信号，能够在消费级显卡上高效运行，降低了使用门槛。该模型适用于创意视频制作、视频内容编辑、虚拟现实、AI自动化内容创作和个性化视频定制等场景。

模型地址：

https://www.modelscope.cn/models/Wan-AI/Wan2.1-VACE-14B

深度讲解，推理教程，效果展示，详见文章：

通义万相Wan2.1-VACE开源！业内首个视频编辑统一模型！附推理教程

WorldPM-72B系列

WorldPM是通义千问团队和复旦大学自然语言处理实验室的一项关于“建模世界偏好”(Modeling World Preference)的联合研究，证明了偏好建模遵循与语言建模类似的规模法则。研究团队通过在不同规模(1.5B～72B)的Qwen 2.5模型上使用1500万条偏好数据进行大规模训练，显示随着模型规模和训练数据量增加，在客观评估和对抗性领域呈明确可扩展性趋势，而在主观评估中风格偏好可能是限制因素。

同时，研究团队进一步实验验证了WorldPM作为偏好微调基础的有效性，WorldPM显著提升了不同规模（7K/100K/800K样本）人类偏好数据集的泛化性能，将WorldPM集成至内部RLHF流程后，在自建和公共评估集上均取得显著改进。本次研究论文、代码与模型（1个基模、3个微调后的偏好模型）已开源。

论文链接：

https://arxiv.org/abs/2505.10527

模型地址：

WorldPM-72B

https://www.modelscope.cn/models/Qwen/WorldPM-72B

WorldPM-72B-HelpSteer2

https://www.modelscope.cn/models/Qwen/WorldPM-72B-HelpSteer2

WorldPM-72B-UltraFeedback

https://www.modelscope.cn/models/Qwen/WorldPM-72B-UltraFeedback

WorldPM-72B-RLHFLow

https://www.modelscope.cn/models/Qwen/WorldPM-72B-RLHFLow

示例代码：

from modelscope import AutoModel, AutoTokenizer, AutoConfig
model_name = 'Qwen/WorldPM-72B'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
config = AutoConfig.from_pretrained(model_name,trust_remote_code=True )
model = AutoModel.from_pretrained(
    model_name, 
    config = config, 
    device_map = "auto", 
    trust_remote_code=True,
).eval()
def get_score(model, tokenizer, conversation):
    con_str = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=False)
    input_ids = tokenizer.encode(con_str, return_tensors="pt", add_special_tokens=False)
    outputs = model(input_ids=input_ids.to(model.device))
    score = outputs[0].cpu().item()
    return score
messages = [
    [
        {'role': 'system', 'content': ""},
        {'role': 'user', 'content': "Tips for better sleep?"},
        {'role': 'assistant', 'content': "Three key tips for better sleep:\n1. Set a consistent bedtime and wake-up schedule\n2. Avoid screens 1 hour before bed\n3. Keep your bedroom cool and dark\n\nStart with these habits and you should notice improvement within a week."}
    ],
    [
        {'role': 'system', 'content': ""},
        {'role': 'user', 'content': "Tips for better sleep?"},
        {'role': 'assistant', 'content': "just try sleeping earlier or take some pills if u cant sleep lol. maybe watch tv until u get tired idk"}
    ]
]
score = [get_score(model, tokenizer=tokenizer, conversation=message) for message in messages]
print(score) #[0.6298332214355469, -1.6425328254699707] for WorldPM-72B

Step1X-3D

阶跃星辰联合光影焕像开源的3D大模型Step1X-3D，具有4.8B参数量，采用3D原生两阶段架构，解耦几何与纹理表征，生成结构清晰、细节生动的3D内容。模型基于200万高质量数据训练，支持对称性、表面细节等属性的精细调控，且在CLIP-Score等关键指标上表现优异，为3D内容创作提供了高保真、可控的生成方案。

模型地址：

https://www.modelscope.cn/models/stepfun-ai/Step1X-3D

数据集推荐

AudioJailbreak

一个专门设计用于评估音频语言模型（Audio LLMs）安全性的基准框架。该项目通过各种音频扰动技术测试模型对恶意请求的防御能力。注意：此项目旨在提高音频语言模型的安全性。研究人员应负责任地使用此工具。

数据集链接：

https://modelscope.cn/datasets/MBZUAI/AudioJailbreak

AceCode-V1.1-69K

TIGER-Lab 的 AceCode-V1.1-69K 是 AceCode-87K 升级版，由 GPT-o1-mini 重写、Qwen Coder 筛选，含 3 个子集，过滤后约 6.9 万样本（平均 17 个测试用例 / 样本），可直接加载，训练模型在编程测试中表现良好。

数据集链接：

https://www.modelscope.cn/datasets/TIGER-Lab/AceCode-V1.1-69K

multiplayer-racing-low-res

该数据集源于 PS2 游戏《Gran Turismo 4》的多人游戏场景，包含超过 4 小时的 1v1 比赛视频素材，视频帧率为 30fps，且被分割为多个.hdf5 文件，每个文件内最多容纳 1000 帧，每帧规格为 (48, 64, 6)，由 2 个 RGB 帧沿通道轴堆叠构成。同时，数据集配备了两位玩家的动作标签，以 66 维数组形式呈现，详细记录了玩家在油门、刹车、转向等方面的操控信息，主要用于多人世界模型 Multiverse 的训练工作。

数据集链接：

https://modelscope.cn/datasets/Enigma-AI/multiplayer-racing-low-res

03
精选应用

DreamO

体验直达：

https://www.modelscope.cn/studios/ByteDance/DreamO

小程序：

PP-StructureV3 Online Demo

体验直达：

https://www.modelscope.cn/studios/PaddlePaddle/PP-StructureV3_Online_Demo

小程序：

04
社区精选文章
ModelScope魔搭25年5月发布月报
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D，高保真+可控！
通义万相Wan2.1-VACE开源！业内首个视频编辑统一模型！附推理教程
魔搭核心开发者共创会 | 邀请函
全模态图像模型Nexus-Gen对齐GPT-4o！图片理解生成编辑同时搞定，数据、训练框架、模型全面开源
小米开源MiMo-7B！从预训练到强化学习，解锁语言模型的推理潜能
10分钟，用RAG搭建专业钉钉/飞书客服机器人
“一丹一世界”三等奖 | 木刻时光·细密风 经验分享
MCP&RL系统学，打榜赛尽情玩！书生大模型实战营第5期课程玩法双升级，火热报名中


👇点击关注ModelScope公众号获取
更多技术信息~

阅读原文

跳转微信打开

通义万相Wan2.1-VACE开源！业内首个视频编辑统一模型！附推理教程

03
精选应用

04
社区精选文章

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

通义万相Wan2.1-VACE开源！业内首个视频编辑统一模型！附推理教程

03精选应用

04社区精选文章

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

03
精选应用

04
社区精选文章