魔搭ModelScope社区 03月03日
魔搭社区模型速递(2.16-3.1)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了魔搭ModelScope社区的多项进展,包括多种模型的上新、数据集的更新、创新应用的推出以及技术内容的发布,涵盖视频生成、语音交互、多模态等领域。

📟魔搭社区有2621个模型上新,如通义万相Wan2.1等

📁276个数据集上新,如中文基于满血DeepSeek-R1蒸馏数据集等

🎨203个创新应用,如通义万相Wan2.1视频生成等

📄12篇技术内容,如人人都是应用开发者等

2025-03-02 12:42 上海

模型上新2621、数据集上新276、应用上新203、应用文章发布12篇

?魔搭ModelScope本期社区进展:

?2621个模型:通义万相Wan2.1、Step- Video-t2v系列、Step-Audio系列、Moonlight-16B-A3B、TinyR1-32B-Preview、Ovis2系列模型等;

?276个数据集:中文基于满血DeepSeek-R1蒸馏数据集、自我认知微调数据集(COT)、NL2SQL思维链数据集等;

?203个创新应用通义万相Wan2.1视频生成、InspireMusic音乐生成模型、Step-Audio-TTS-3B、olmOCR PDF高精准文本提取等;

? 12篇技术内容:


01


精选模型


通义万相Wan2.1系列

通义万相Wan2.1是阿里通义实验室开源的视频生成模型,包括14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,实现了性能与易用性的双重突破:


模型链接:

通义万相2.1-文生视频-1.3B

https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-1.3B


通义万相2.1-文生视频-14B

https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-14B


通义万相2.1-图生视频-14B-720P

https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-720P


通义万相2.1-图生视频-14B-480P

https://www.modelscope.cn/models/Wan-AI/Wan2.1-I2V-14B-480P


示例代码:

使用DiffSynth-Studio进行Wan2.1系列模型推理

安装

通过以下命令可下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.gitcd DiffSynth-Studiopip install -e .

模型下载

modelscope download --model Wan-AI/Wan2.1-T2V-1.3B --local_dir ./models/Wan-AI/Wan2.1-T2V-1.3Bmodelscope download --model Wan-AI/Wan2.1-T2V-14B --local_dir ./models/Wan-AI/Wan2.1-T2V-14Bmodelscope download --model Wan-AI/Wan2.1-I2V-14B-480P --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-480Pmodelscope download --model Wan-AI/Wan2.1-I2V-14B-720P --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-720P
模型推理

<1.3B 模型>

运行 1.3B 文生视频模型的代码(提示词等参数可在代码文件中进行修改):

python examples/wanvideo/wan_1.3b_text_to_video.py

1.3B 模型需要 6G 显存即可运行。


<14B 模型>

运行 14B 文生视频和图生视频模型的代码:

python examples/wanvideo/wan_14b_text_to_video.pypython examples/wanvideo/wan_14b_image_to_video.py



更多模型玩法详见:

通义万相Wan2.1视频模型开源!视频生成模型新标杆,支持中文字效+高质量视频生成


Moonlight-16B-A3B

月之暗面团队基于Muon训练了Moonlight-16B-A3B系列模型并开源发布。Moonlight-16B-A3B是一个具备16B参数(激活参数为3B)的专家混合(MoE)模型,使用5.7T个token数据训练得到,该模型模型改进了当前的帕累托前沿,与之前的模型相比,使用更少的训练FLOPs就能实现更好的性能。


模型链接:

Moonlight-16B-A3B

https://www.modelscope.cn/models/moonshotai/Moonlight-16B-A3B


Moonlight-16B-A3B-Instruct

https://www.modelscope.cn/models/moonshotai/Moonlight-16B-A3B-Instruct


示例代码:

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "moonshotai/Moonlight-16B-A3B-Instruct"model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto", trust_remote_code=True,)tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
prompt = "1+1=2, 1+2="inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)generated_ids = model.generate(**inputs, max_new_tokens=100)response = tokenizer.batch_decode(generated_ids)[0]print(response)

更多关于Muon优化器微调实战教程,详见:

Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与训练效率双突破!


Step-Video-T2V系列

Step-Video-T2V系列是由阶跃星辰开源的SoTA文本转视频预训练模型,是目前全球参数量最大的视频生成大模型,具有 300 亿个参数,能够生成高达204帧、540P分辨率的高质量视频,具备复杂运动控制能力,可实现精细的动态表现。


Step-Video-T2V采用高压缩Video-VAE实现16x16空间和8x时间压缩,通过双语文本编码器支持中英输入。模型基于3D全注意力DiT扩散架构,使用Flow Matching训练,将噪声转化为潜在帧,以文本嵌入和时间步为条件。结合视频优化的DPO技术,显著减少伪影,提升视频流畅性与真实感,生成高质量、长时序的多语言适配视频内容。


模型链接:

stepvideo-t2v

https://www.modelscope.cn/models/stepfun-ai/stepvideo-t2v


stepvideo-t2v-turbo

https://www.modelscope.cn/models/stepfun-ai/stepvideo-t2v-turbo


示例代码:

单卡体验

使用DiffSynth-Studio工具在 80G 显存的单卡 A100 上进行推理

下载并安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.gitcd DiffSynth-Studiopip install -e .

运行 Step-Video-T2V 模型:

python examples/stepvideo/stepvideo_text_to_video.py

提示词、帧数等参数可在样例代码 stepvideo_text_to_video.py中进行修改

代码链接:https://github.com/modelscope/DiffSynth-Studio/blob/main/examples/stepvideo/stepvideo_text_to_video.py


更多玩法详见:

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源


Step-Audio系列

Step-Audio系列是由阶跃星辰开源的业界首个产品级语音交互模型,支持多语言(如中文、英文、日语)、情感表达(如开心、悲伤)、方言(如粤语、四川话)以及语速、韵律和唱歌(包括RAP、哼唱)的精准控制,核心技术包括:


采用双码本编码器方案和混合语音解码器,确保语音清晰度与自然度,后训练阶段通过SFT和RLHF优化情感、语速等控制能力,在主流测试集中性能领先,尤其在HSK-6评测中表现突出,被称为“最懂中国话”的开源语音交互模型。


模型链接:

Step-Audio-Chat

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-Chat


Step-Audio-Tokenizer

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-Tokenizer


Step-Audio-TTS-3B

https://www.modelscope.cn/models/stepfun-ai/Step-Audio-TTS-3B


示例代码:

安装依赖:

git clone https://github.com/stepfun-ai/Step-Audio.gitconda create -n stepaudio python=3.10conda activate stepaudio
cd Step-Audiopip install -r requirements.txt


推理代码如下,你需要在`Step-Audio`目录下运行代码:

import osimport torchaudioimport argparsefrom stepaudio import StepAudiofrom modelscope import snapshot_downloados.makedirs('output', exist_ok=True)
tokenizer_path = snapshot_download('stepfun-ai/Step-Audio-Tokenizer')tts_path = snapshot_download('stepfun-ai/Step-Audio-TTS-3B')model_path = snapshot_download('stepfun-ai/Step-Audio-Chat')
model = StepAudio( tokenizer_path=tokenizer_path, tts_path=tts_path, llm_path=model_path,)
# example for text inputtext, audio, sr = model( [{"role": "user", "content": "你好,我是你的朋友,我叫小明,你叫什么名字?"}], "闫雨婷",)print(text)torchaudio.save("output/output_e2e_tqta.wav", audio, sr)
# example for audio inputtext, audio, sr = model( [ { "role": "user", "content": {"type": "audio", "audio": "output/output_e2e_tqta.wav"}, } ], "闫雨婷",)print(text)torchaudio.save("output/output_e2e_aqta.wav", audio, sr)

显存资源占用:4 * 65GiB


更多玩法详见:

王炸组合,阶跃星辰SOTA模型Step-Video和Step-Audio模型开源


Ovis2系列模型

Ovis2是阿里巴巴国际化团队推出的新型多模态大模型架构,通过结构化对齐视觉和文本嵌入,解决了模态间嵌入策略差异的问题。相较于前序版本,Ovis2在数据构造与训练方法上显著改进,强化了小规模模型的能力密度,并通过指令微调和偏好学习提升了思维链(CoT)推理能力。其新增视频、多图像处理能力,增强多语言支持与复杂场景OCR能力,实用性大幅提升。


Ovis2开源六个版本(1B至34B),各尺寸均达SOTA水平,其中Ovis2-34B在OpenCompass评测中表现卓越,以不到一半参数量超越多个70B级开源模型。模型架构由三个关键组件构成:视觉tokenizer将图像分割并转化为概率化视觉token;视觉嵌入表存储视觉单词嵌入向量并通过加权平均生成嵌入表示;LLM将视觉与文本嵌入拼接处理,完成多模态任务。Ovis2具备高性能、多任务支持和广泛适用性,为多模态领域带来重要突破。


模型链接:

Ovis2-1B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-1B


Ovis2-2B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-2B


Ovis2-4B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-4B


Ovis2-8B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-8B


Ovis2-16B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-16B


Ovis2-34B

https://www.modelscope.cn/models/AIDC-AI/Ovis2-34B


示例代码

安装依赖

!pip install flash-attn==2.7.0.post2 --no-build-isolation

推理代码

import torchfrom PIL import Imagefrom modelscope import AutoModelForCausalLM
# load modelmodel = AutoModelForCausalLM.from_pretrained("AIDC-AI/Ovis2-4B", torch_dtype=torch.bfloat16, multimodal_max_length=32768, trust_remote_code=True).cuda()text_tokenizer = model.get_text_tokenizer()visual_tokenizer = model.get_visual_tokenizer()
# single-image inputimage_path = './data/example.jpg'images = [Image.open(image_path)]max_partition = 9text = 'Describe the image.'query = f'<image>\n{text}'
## cot-style input# cot_suffix = "Provide a step-by-step solution to the problem, and conclude with 'the answer is' followed by the final solution."# image_path = '/data/images/example_1.jpg'# images = [Image.open(image_path)]# max_partition = 9# text = "What's the area of the shape?"# query = f'<image>\n{text}\n{cot_suffix}'
## multiple-images input# image_paths = [# '/data/images/example_1.jpg',# '/data/images/example_2.jpg',# '/data/images/example_3.jpg'# ]# images = [Image.open(image_path) for image_path in image_paths]# max_partition = 4# text = 'Describe each image.'# query = '\n'.join([f'Image {i+1}: <image>' for i in range(len(images))]) + '\n' + text
## video input (require `pip install moviepy==1.0.3`)# from moviepy.editor import VideoFileClip# video_path = '/data/videos/example_1.mp4'# num_frames = 12# max_partition = 1# text = 'Describe the video.'# with VideoFileClip(video_path) as clip:# total_frames = int(clip.fps * clip.duration)# if total_frames <= num_frames:# sampled_indices = range(total_frames)# else:# stride = total_frames / num_frames# sampled_indices = [min(total_frames - 1, int((stride * i + stride * (i + 1)) / 2)) for i in range(num_frames)]# frames = [clip.get_frame(index / clip.fps) for index in sampled_indices]# frames = [Image.fromarray(frame, mode='RGB') for frame in frames]# images = frames# query = '\n'.join(['<image>'] * len(images)) + '\n' + text
## text-only input# images = []# max_partition = None# text = 'Hello'# query = text
# format conversationprompt, input_ids, pixel_values = model.preprocess_inputs(query, images, max_partition=max_partition)attention_mask = torch.ne(input_ids, text_tokenizer.pad_token_id)input_ids = input_ids.unsqueeze(0).to(device=model.device)attention_mask = attention_mask.unsqueeze(0).to(device=model.device)if pixel_values is not None: pixel_values = pixel_values.to(dtype=visual_tokenizer.dtype, device=visual_tokenizer.device)pixel_values = [pixel_values]
# generate outputwith torch.inference_mode(): gen_kwargs = dict( max_new_tokens=1024, do_sample=False, top_p=None, top_k=None, temperature=None, repetition_penalty=None, eos_token_id=model.generation_config.eos_token_id, pad_token_id=text_tokenizer.pad_token_id, use_cache=True ) output_ids = model.generate(input_ids, pixel_values=pixel_values, attention_mask=attention_mask, **gen_kwargs)[0] output = text_tokenizer.decode(output_ids, skip_special_tokens=True) print(f'Output:\n{output}')


02


数据集推荐



中文基于满血DeepSeek-R1蒸馏数据集

本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。

数据集链接:

https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k-SFT


https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k


更多详情请查看文章:

强强联合,开源中文DeepSeek-R1蒸馏数据集联合魔搭社区,一起来训练中文版推理模型!


自我认知微调数据集(COT)

该数据集主要用于微调大型语言模型,以提升模型在自我认知和思维链推理方面的能力。

数据集链接:

https://www.modelscope.cn/datasets/xitaosun/self-cognition


NL2SQL思维链数据集

该数据集通过引入思维链(Chain of Thought, CoT)的方式,帮助模型更好地理解和生成SQL查询语句,提升自然语言处理在数据库查询场景中的准确性和效率。

数据集链接:

https://www.modelscope.cn/datasets/ruohuaw/sql-cot


03


精选应用



通义万相Wan2.1视频生成

体验直达:

https://www.modelscope.cn/studios/Wan-AI/Wan-2.1


InspireMusic音乐生成模型

体验直达:

https://modelscope.cn/studios/Qwen/Qwen2.5-Max-Demo


Step-Audio-TTS-3B

体验直达:

https://www.modelscope.cn/studios/Swarmeta_AI/Step-Audio-TTS-3B


olmOCR PDF高精准文本提取

体验直达:

https://www.modelscope.cn/studios/AI-ModelScope/olmOCR



SPO:让提示词自我进化

SPO是一种用于大型语言模型(LLMs)的自动化提示工程工具,专为通用领域适配而设计。作为下一代提示工程系统,采用自监督提示优化,与传统方法相比,实现了高达17.8至90.9倍的成本效率提升,达到SoTA的性能水平。


体验直达:

https://modelscope.cn/studios/AI-ModelScope/SPO



04


社区精选文章





?点击关注ModelScope公众号获取

更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

魔搭ModelScope 模型 数据集 应用 技术内容
相关文章