魔搭ModelScope社区 前天 22:40
魔搭社区模型速递(5.11-5.17)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周ModelScope魔搭社区迎来多项更新,包括1656个新模型、151个数据集和645个创新应用。模型方面,亮点包括通义万相2.1-VACE视频生成编辑模型、WorldPM-72B系列偏好模型、Step1X-3D三维大模型以及Qwen3系列量化模型等。数据集方面,新增了AudioJailbreak音频安全评估框架、AceCode-V1.1编程数据集和multiplayer-racing-low-res多人赛车数据集。此外,DreamO和PP-StructureV3等创新应用也值得关注。社区还发布了9篇精选文章,涵盖模型开源、技术教程和实战经验等。

🚀**通义万相2.1-VACE开源**:阿里巴巴开源的多功能AI视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等多种功能,降低了使用门槛,适用于多种场景。

🌍**WorldPM-72B系列发布**:通义千问团队和复旦大学NLP实验室联合研究,证明了偏好建模的可扩展性,并开源了论文、代码和模型,包括基模和三个微调后的偏好模型。

✨**Step1X-3D开源**:阶跃星辰联合光影焕像开源的4.8B参数3D大模型,采用3D原生两阶段架构,生成结构清晰、细节生动的3D内容,为3D内容创作提供高保真、可控的生成方案。

🔒**AudioJailbreak数据集**:一个专门设计用于评估音频语言模型安全性的基准框架,通过各种音频扰动技术测试模型对恶意请求的防御能力,旨在提高音频语言模型的安全性。

🎮**multiplayer-racing-low-res数据集**:源于PS2游戏《Gran Turismo 4》的多人游戏场景,包含超过4小时的1v1比赛视频素材,配备了两位玩家的动作标签,主要用于多人世界模型Multiverse的训练工作。

2025-05-18 21:39 浙江

本周上新模型1656、数据集151、应用645、文章9

🙋魔搭ModelScope本期社区进展:

📟1656个模型:通义万相2.1-VACE-视频生成编辑-14B、WorldPM-72B系列、Step1X-3D、Nexus-Gen、Qwen3系列量化模型 等;

📁151个数据集:AudioJailbreakmultiplayer-racing-low-res、AceCode-V1.1-69K 等;

🎨645个创新应用DreamO、PP-StructureV3 Online Demo 等;

📄 9 篇内容:

      ModelScope魔搭25年5月发布月报

      阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!

      通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

      全模态图像模型Nexus-Gen对齐GPT-4o!图片理解生成编辑同时搞定,数据、训练框架、模型全面开源

      小米开源MiMo-7B!从预训练到强化学习,解锁语言模型的推理潜能

      10分钟,用RAG搭建专业钉钉/飞书客服机器人

      “一丹一世界”三等奖 | 木刻时光·细密风 经验分享

      MCP&RL系统学,打榜赛尽情玩!书生大模型实战营第5期课程玩法双升级,火热报名中

      魔搭核心开发者共创会 | 邀请函

    01

    模型推荐

    通义万相2.1-VACE-视频生成编辑-14B
    通义万相2.1-VACE是一款由阿里巴巴开源的多功能AI视频生成与编辑模型,具备文生视频、图像参考生成、视频重绘、局部编辑、背景延展等多种功能,支持文本、图像、视频等多种输入形式。它采用统一模型架构,支持细粒度控制信号,能够在消费级显卡上高效运行,降低了使用门槛。该模型适用于创意视频制作、视频内容编辑、虚拟现实、AI自动化内容创作和个性化视频定制等场景。

    模型地址:

    https://www.modelscope.cn/models/Wan-AI/Wan2.1-VACE-14B

    深度讲解,推理教程,效果展示,详见文章:

    通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

    WorldPM-72B系列

    WorldPM是通义千问团队和复旦大学自然语言处理实验室的一项关于“建模世界偏好”(Modeling World Preference)的联合研究,证明了偏好建模遵循与语言建模类似的规模法则。研究团队通过在不同规模(1.5B~72B)的Qwen 2.5模型上使用1500万条偏好数据进行大规模训练,显示随着模型规模和训练数据量增加,在客观评估和对抗性领域呈明确可扩展性趋势,而在主观评估中风格偏好可能是限制因素。
    同时,研究团队进一步实验验证了WorldPM作为偏好微调基础的有效性,WorldPM显著提升了不同规模(7K/100K/800K样本)人类偏好数据集的泛化性能,将WorldPM集成至内部RLHF流程后,在自建和公共评估集上均取得显著改进。本次研究论文、代码与模型(1个基模、3个微调后的偏好模型)已开源。

    论文链接:

    https://arxiv.org/abs/2505.10527

    模型地址:

      WorldPM-72B

    https://www.modelscope.cn/models/Qwen/WorldPM-72B

      WorldPM-72B-HelpSteer2

    https://www.modelscope.cn/models/Qwen/WorldPM-72B-HelpSteer2

      WorldPM-72B-UltraFeedback

    https://www.modelscope.cn/models/Qwen/WorldPM-72B-UltraFeedback

      WorldPM-72B-RLHFLow

    https://www.modelscope.cn/models/Qwen/WorldPM-72B-RLHFLow

    示例代码:

      from modelscope import AutoModel, AutoTokenizer, AutoConfig

      model_name = 'Qwen/WorldPM-72B'

      tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

      config = AutoConfig.from_pretrained(model_name,trust_remote_code=True )

      model = AutoModel.from_pretrained(

          model_name, 

          config = config, 

          device_map = "auto"

          trust_remote_code=True,

      ).eval()

      def get_score(model, tokenizer, conversation):

          con_str = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=False)

          input_ids = tokenizer.encode(con_str, return_tensors="pt", add_special_tokens=False)

          outputs = model(input_ids=input_ids.to(model.device))

          score = outputs[0].cpu().item()

          return score

      messages = [

          [

              {'role''system''content'""},

              {'role''user''content'"Tips for better sleep?"},

              {'role''assistant''content'"Three key tips for better sleep:\n1. Set a consistent bedtime and wake-up schedule\n2. Avoid screens 1 hour before bed\n3. Keep your bedroom cool and dark\n\nStart with these habits and you should notice improvement within a week."}

          ],

          [

              {'role''system''content'""},

              {'role''user''content'"Tips for better sleep?"},

              {'role''assistant''content'"just try sleeping earlier or take some pills if u cant sleep lol. maybe watch tv until u get tired idk"}

          ]

      ]

      score = [get_score(model, tokenizer=tokenizer, conversation=message) for message in messages]

      print(score) #[0.6298332214355469, -1.6425328254699707] for WorldPM-72B

      Step1X-3D

      阶跃星辰联合光影焕像开源的3D大模型Step1X-3D,具有4.8B参数量,采用3D原生两阶段架构,解耦几何与纹理表征,生成结构清晰、细节生动的3D内容。模型基于200万高质量数据训练,支持对称性、表面细节等属性的精细调控,且在CLIP-Score等关键指标上表现优异,为3D内容创作提供了高保真、可控的生成方案。

      模型地址:

      https://www.modelscope.cn/models/stepfun-ai/Step1X-3D

      02

      数据集推荐

      AudioJailbreak
      一个专门设计用于评估音频语言模型(Audio LLMs)安全性的基准框架。该项目通过各种音频扰动技术测试模型对恶意请求的防御能力。 注意:此项目旨在提高音频语言模型的安全性。研究人员应负责任地使用此工具。

      数据集链接:

      https://modelscope.cn/datasets/MBZUAI/AudioJailbreak

      AceCode-V1.1-69K

      TIGER-Lab 的 AceCode-V1.1-69K 是 AceCode-87K 升级版,由 GPT-o1-mini 重写、Qwen Coder 筛选,含 3 个子集,过滤后约 6.9 万样本(平均 17 个测试用例 / 样本),可直接加载,训练模型在编程测试中表现良好。

      数据集链接:

      https://www.modelscope.cn/datasets/TIGER-Lab/AceCode-V1.1-69K

      multiplayer-racing-low-res

      该数据集源于 PS2 游戏《Gran Turismo 4》的多人游戏场景,包含超过 4 小时的 1v1 比赛视频素材,视频帧率为 30fps,且被分割为多个.hdf5 文件,每个文件内最多容纳 1000 帧,每帧规格为 (48, 64, 6),由 2 个 RGB 帧沿通道轴堆叠构成。同时,数据集配备了两位玩家的动作标签,以 66 维数组形式呈现,详细记录了玩家在油门、刹车、转向等方面的操控信息,主要用于多人世界模型 Multiverse 的训练工作 。

      数据集链接:

      https://modelscope.cn/datasets/Enigma-AI/multiplayer-racing-low-res

      03

      精选应用

      DreamO

      体验直达:

      https://www.modelscope.cn/studios/ByteDance/DreamO

      小程序:

      PP-StructureV3 Online Demo

      体验直达:

      https://www.modelscope.cn/studios/PaddlePaddle/PP-StructureV3_Online_Demo

      小程序:

      04

      社区精选文章


      👇点击关注ModelScope公众号获取

      更多技术信息~

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      ModelScope 模型开源 数据集 AI应用 视频生成
      相关文章