魔搭ModelScope社区 04月09日 18:06
魔搭社区模型速递(3.16-3.22)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

魔搭ModelScope社区在3月份取得了显著进展,发布了大量新模型、数据集和应用。其中,MiniMax-VL-01模型因其超长上下文窗口处理能力备受关注,Step-Video-T2V模型则在图生视频领域展现出卓越性能。此外,社区还推出了OpenManus-RL等数据集,以及Qwen2.5-Omni-Demo等创新应用。社区文章也涵盖了模型部署、技术解析等内容,为开发者提供了丰富的资源和实践指导。整体来看,魔搭ModelScope社区持续推动着AI技术的发展与创新。

🚀 MiniMax-VL-01模型:该模型采用线性注意力架构,支持处理长达400万token的上下文,是目前最长上下文窗口的模型,并提供推理代码。

🎬 Step-Video-T2V模型:由阶跃星辰开源的图生视频模型,基于Step-Video-T2V训练,支持生成5秒、540P分辨率的视频,具备运动幅度与镜头运动控制功能,并提供代码示例。

📚 OpenManus-RL数据集:该数据集通过强化学习提升LLM智能体的推理与决策能力,支持智能体环境搭建、轨迹数据收集等功能。

🗣️ Qwen2.5-Omni-Demo应用:该应用提供多模态交互体验,展示了魔搭社区在应用层面的创新成果。

📰 社区精选文章:涵盖了模型部署、RWKV-7序列建模、Gemma3多模态应用等技术解析,为开发者提供实践指导。

2025-03-23 21:25 北京

模型上新1177、数据集上新216、应用上新416、文章发布11篇

🙋魔搭ModelScope本期社区进展:

📟1177个模型:MiniMax-VL-01、Step-Video-T2V、Skywork-R1V-38B、Hunyuan3D-2mv等;

📁216个数据集:OpenManus-RL、ArabicMMLU、TimeTravel等;

🎨416个创新应用Qwen2.5-Omni-Demo、MiniMax-VL-01、AI故事随心绘-AnyStory等;

📄 11篇内容:


01


精选模型


MiniMax-VL-01

MiniMax团队推出MiniMax-VL-01模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。


模型地址:

https://modelscope.cn/models/MiniMax/MiniMax-VL-01


示例代码:

使用MS-Swift对MiniMax-01模型推理

环境准备:

pip install optimum-quantopip install git+https://github.com/modelscope/ms-swift.git

使用swift对MiniMax-Text-01进行推理:

from swift.llm import PtEngine, RequestConfig, InferRequestfrom transformers import QuantoConfigmodel = 'MiniMax/MiniMax-Text-01'# 加载推理引擎quantization_config = QuantoConfig(weights='int8')engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config)request_config = RequestConfig(max_tokens=512, temperature=0)# 这里使用了2个infer_request来展示batch推理infer_requests = [    InferRequest(messages=[        {"role": "system", "content": "You are a helpful assistant created by MiniMax based on MiniMax-Text-01 model."},        {'role': 'user', 'content': 'who are you?'}]),    InferRequest(messages=[        {'role': 'user', 'content': '浙江的省会在哪?'},        {'role': 'assistant', 'content': '浙江省的省会是杭州。'},        {'role': 'user', 'content': '这里有什么好玩的地方'}]),]resp_list = engine.infer(infer_requests, request_config)query0 = infer_requests[0].messages[0]['content']print(f'response0: {resp_list[0].choices[0].message.content}')print(f'response1: {resp_list[1].choices[0].message.content}')

使用swift对MiniMax-VL-01进行推理:

from swift.llm import PtEngine, RequestConfig, InferRequestfrom transformers import QuantoConfigmodel = 'MiniMax/MiniMax-VL-01'# 加载推理引擎quantization_config = QuantoConfig(weights='int8')engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config)request_config = RequestConfig(max_tokens=512, temperature=0, stream=True)query = '<image><image>两张图的区别是什么?'infer_requests = [    InferRequest(messages=[{'role': 'user', 'content': query}],                 images=['http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png','http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png']),]# 流式推理gen_list = engine.infer(infer_requests, request_config)print(f'query: {query}\nresponse: ', end='')for resp in gen_list[0]:if resp is None:continue    print(resp.choices[0].delta.content, end='', flush=True)print()

更多部署实战详见:

MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署


Step-Video-T2V

阶跃星辰开源图生视频模型Step-Video-TI2V,基于 30B 参数Step-Video-T2V训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,能平衡视频动态性与稳定性,且天生具备特效生成能力,在动漫类任务上效果尤佳,支持多尺寸生成,满足不同创作需求。


模型链接:

https://modelscope.cn/models/stepfun-ai/stepvideo-t2v


示例代码:

1、下载模型权重

    #从modelscop下载stepvideo-ti2v模型from modelscope import snapshot_download# local_dir 指定下载路径model_dir = snapshot_download('stepfun-ai/stepvideo-ti2v',local_dir='models/stepvideo/stepvideo-ti2v')


    2、从github中下载推理代码,安装所需环境

      git clone https://github.com/stepfun-ai/Step-Video-TI2V.gitconda create -n stepvideo python=3.10conda activate stepvideocd StepFun-StepVideopip install -e .

      3、在推理的时候对文本编码器、VAE解码和DiT采用了解耦策,先在本地启动一个api服务,在一个单独的GPU上加载文本编码器和VAE解码器,默认会使用机器上编号最后一个GPU。启动之后得到一个url,后续的文本编码和VAE解码会发到这个url 进行处理

        # model_dir 是上面模型下载的路径python api/call_remote_server.py --model_dir models/stepvideo/stepvideo-ti2v &


        4、采用多卡并行生成视频,在一个sh脚本定义参数和运行命令,通过运行sh脚本进行视频生成。

        parallel=4  # 使用多少张卡进行推理url='127.0.0.1' # 上面启动编码器和VAE解码器服务的url,默认是‘127.0.0.1’model_dir=models/stepvideo/stepvideo-ti2v # 模型路径
        torchrun --nproc_per_node $parallel run_parallel.py \ --model_dir $model_dir \ --vae_url $url \ --caption_url $url \ --ulysses_degree $parallel \ --prompt "女孩头发在飘荡" \ # 生成视频的 prompt --first_image_path ./assets/girl.jpg \ # 参考图片的路径 --infer_steps 50 \ --save_path ./results \ # 保存视频路径 --cfg_scale 9.0 \ --motion_score 5.0 \ --time_shift 12.573

        Skywork-R1V-38B

        Skywork-R1V-38B 是一款基于 InternViT-6B 和 DeepSeek-R1-Distill-Qwen-32B 的多模态语言模型,具备视觉链式思考、数学与科学分析等能力,在多项基准测试中表现优异,推理能力突出。


        模型地址:

        https://modelscope.cn/models/Skywork/Skywork-R1V-38B


        02


        数据集推荐



        OpenManus-RL

        OpenManus-RL 是通过强化学习技术提升大型语言模型(LLM)智能体的推理与决策能力,支持智能体环境搭建、轨迹数据收集、强化学习调优等功能,并集成了多种基准测试环境

        数据集链接:

        https://modelscope.cn/datasets/AI-ModelScope/OpenManus-RL


        ArabicMMLU

        ArabicMMLU 是一个用于评估阿拉伯语多模态语言模型的性能,特别是在阿拉伯语知识问答和理解任务中的表现。

        数据集链接:

        https://modelscope.cn/datasets/MBZUAI/ArabicMMLU


        TimeTravel

        TimeTravel 是第一个大规模开源基准测试,旨在评估历史和文化文物的大型多模态模型 (LMM)。它涵盖:

        数据集链接:

        https://modelscope.cn/datasets/MBZUAI/TimeTravel


        03


        精选应用



        Qwen2.5-Omni-Demo

        体验直达:

        https://modelscope.cn/studios/QwQ/Qwen2.5-Omni-Demo


        MiniMax-VL-01

        体验直达:

        https://modelscope.cn/studios/MiniMax/MiniMax-VL-01



        AI故事随心绘-AnyStory

        体验直达:

        https://www.modelscope.cn/studios/iic/AnyStory/summary


        04


        社区精选文章





        👇点击关注ModelScope公众号获取

        更多技术信息~


        阅读原文

        跳转微信打开

        Fish AI Reader

        Fish AI Reader

        AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

        FishAI

        FishAI

        鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

        联系邮箱 441953276@qq.com

        相关标签

        魔搭ModelScope AI模型 数据集 应用
        相关文章