魔搭ModelScope社区 05月08日 15:58
魔搭社区模型速递(4.20-4.26)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

魔搭ModelScope社区迎来新进展,共上新2227个模型、270个数据集以及167个创新应用。模型方面,包括Bitnet-b1.58-2B-4T、MAGI-1、SkyReels-V2系列等。数据集方面,新增OpenMathReasoning、xtreme、InternVL-Data等。创新应用包括高度逼真的对话声音合成Dia-1.6B、hidream-arena、ChatTests编题等。此外,社区还发布了10篇高质量内容,涵盖本地研究助手搭建、多智能体应用、模型量化、数据集发布以及蛋白质序列问答框架等多个领域。

🚀 **模型更新:** 微软开源的Bitnet-b1.58-2B-4T模型,采用1.58位三进制量化方案,降低计算成本和内存占用,提升大语言模型在端侧的应用效率。MAGI-1是由Sand.ai团队开源的世界模型,通过自回归预测视频块生成视频,支持流式生成,在文本指令为条件的图像到视频任务中表现出色。昆仑万维SkyReels团队推出SkyReels-V2系列无限时长电影生成模型,支持文本到视频、图像到视频的高质量生成。

📚 **数据集上新:** OpenMathReasoning数据集旨在支持数学问题解决与推理相关的人工智能模型训练和研究。XTREME 是一个跨语言自然语言推理数据集,评估预训练多语言模型的跨语言泛化能力。InternVL-Data 是一个高质量多模态大语言模型数据集,专注于图像、文本和视频理解任务。

🎨 **应用创新:** Dia-1.6B实现高度逼真的对话声音合成,支持情感控制、非语言声音和零样本声纹复刻。Hidream-arena和ChatTests编题等小程序也为用户提供了更多创新体验。

📰 **社区文章精选:** 社区发布了10篇内容,涵盖Ollama-Deep-Researcher本地Mac结合魔搭社区模型搭建网页研究助手、AgentScope多智能体应用、微软Bitnet-b1.58-2B-4T模型介绍、智源数据新基建系列Workshop、ImagePulse图律脉动数据集发布、Prot2Chat蛋白质序列问答框架等多个技术领域。

2025-04-27 23:59 浙江

模型上新2227、数据集上新270、应用上新167、文章发布10篇

🙋魔搭ModelScope本期社区进展:

📟2227个模型:Bitnet-b1.58-2B-4T、MAGI-1、Dia-1.6B、SkyReels-V2系等;

📁270个数据集:OpenMathReasoning、xtreme、InternVL-Data等;

🎨167个创新应用高度逼真的对话声音合成Dia-1.6B、hidream-arena、ChatTests编题等;

📄 10篇内容:

      Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

      答疑机器人实践:AgentScope多智能体带你玩转多源召回

      微软推出bitnet-b1.58-2B-4T:极致的量化,小巧而强大

      智源数据新基建系列 Workshop(第1期)来了!从大模型到具身智能,线上线下同步!

      ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放

      Prot2Chat:融合蛋白质序列与结构的新型问答框架

      “一丹一世界”三等奖 | 绮影录 创作分享

      “一丹一世界”二等奖 | MAJICFLUS_新浮世 创作分享

      "一丹一世界"一等奖 | 曙光_麦橘超然 创作分享

      "一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光_majiuFlux版本 创作分享



    01


    模型推荐



    Bitnet-b1.58-2B-4T

    BitNet-b1.58-2B-4T 是微软开源的一种创新量化模型,采用1.58位的三进制量化方案(权重为+1、0、-1),旨在通过大幅降低计算成本和内存占用,提升大语言模型在端侧等资源受限场景下的应用效率,同时缓解传统量化方法中因精度降低而导致的准确率下降问题。

    模型地址
    https://modelscope.cn/models/AI-ModelScope/bitnet-b1.58-2B-4T

    示例代码

    使用transformers进行推理:

    环境安装:

      !pip install git+https://github.com/shumingma/transformers.git

      示例代码

        import torchfrom modelscope import AutoModelForCausalLM, AutoTokenizermodel_id = "AI-ModelScope/bitnet-b1.58-2B-4T"# Load tokenizer and modeltokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16)# Apply the chat templatemessages = [    {"role""system""content""You are a helpful AI assistant."},    {"role""user""content""How are you?"},]prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)chat_input = tokenizer(prompt, return_tensors="pt").to(model.device)# Generate responsechat_outputs = model.generate(**chat_input, max_new_tokens=50)response = tokenizer.decode(chat_outputs[0][chat_input['input_ids'].shape[-1]:], skip_special_tokens=True) # Decode only the response partprint("\nAssistant Response:", response)
        更多推理实战教程,详见文章:

        微软推出bitnet-b1.58-2B-4T:极致的量化,小巧而强大


        MAGI-1
        MAGI-1是由Sand.ai团队开源的一个世界模型,它通过自回归预测一系列视频块(定义为固定长度的连续帧片段)来生成视频。MAGI-1 经过训练,可以去除随时间单调递增的单块噪声,从而实现因果时间建模,并自然支持流式生成。它在以文本指令为条件的图像到视频 (I2V) 任务中表现出色,提供了高度的时间一致性和可扩展性,这得益于多项算法创新和专用的基础架构堆栈。MAGI-1 还通过逐块提示支持可控生成,从而实现流畅的场景过渡、长时域合成和细粒度的文本驱动控制。我们相信,MAGI-1 为统一高保真视频生成、灵活的指令控制和实时部署提供了一个充满希望的方向。


        模型地址

        https://modelscope.cn/models/sand-ai/MAGI-1


        示例代码
        使用 Docker 环境运行(推荐)
          docker pull sandai/magi:latestdocker run -it --gpus all --privileged --shm-size=32g --name magi --net=host --ipc=host --ulimit memlock=-1 --ulimit stack=6710886 sandai/magi:latest /bin/bash

          使用源代码运行
            # Create a new environmentconda create -n magi python==3.10.12# Install pytorchconda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia# Install other dependenciespip install -r requirements.txt# Install ffmpegconda install -c conda-forge ffmpeg=4.4# Install MagiAttention, for more information, please refer to https://github.com/SandAI-org/MagiAttention#git clone git@github.com:SandAI-org/MagiAttention.gitcd MagiAttentiongit submodule update --init --recursivepip install --no-build-isolation .

            SkyReels-V2系列
            SkyReels-V2是昆仑万维SkyReels团队推出全球首创扩散强迫框架的无限时长电影生成模型,通过融合多模态大语言模型、多阶段预训练与强化学习技术实现联合优化,基于Diffusion Forcing架构,支持文本到视频、图像到视频的高质量生成,适用于故事创作、广告制作和影视特效等多种场景。本次开源了1.3B、5B、13B多个尺寸版本。

            模型合集

            https://modelscope.cn/collections/SkyReels-V2-f665650130b144


            示例代码
            10秒视频同步生成
              model_id=Skywork/SkyReels-V2-DF-14B-540P# synchronous inferencepython3 generate_video_df.py \  --model_id ${model_id} \  --resolution 540P \  --ar_step 0 \  --base_num_frames 97 \  --num_frames 257 \  --overlap_history 17 \  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \  --addnoise_condition 20 \  --offload \  --teacache \  --use_ret_steps \  --teacache_thresh 0.3

              30秒视频异步生成
                model_id=Skywork/SkyReels-V2-DF-14B-540P# asynchronous inferencepython3 generate_video_df.py \  --model_id ${model_id} \  --resolution 540P \  --ar_step 5 \  --causal_block_size 5 \  --base_num_frames 97 \  --num_frames 737 \  --overlap_history 17 \  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \  --addnoise_condition 20 \  --offload

                Dia-1.6B
                Dia-1.6B是由韩国研究团队 Nari Labs 开源的一个 1.6B 参数的文本转语音模型,仅凭 1.6B 小参数即可实现情感控制、非语言声音(如笑声、咳嗽)和零样本声纹复刻,支持从文本脚本生成多角色对话,通过标签区分角色生成自然语音。目前该模型仅支持英语生成。

                模型地址
                https://www.modelscope.cn/models/nari-labs/Dia-1.6B

                02


                数据集推荐



                OpenMathReasoningOpenMathReasoning是一个数学推理领域专业数据集,旨在支持数学问题解决与推理相关的人工智能模型训练和研究,助力提升模型在数学领域的理解和解题能力。
                数据集链接:
                https://modelscope.cn/datasets/AI-ModelScope/OpenMathReasoning


                xtreme

                XTREME 是一个由谷歌开发的跨语言自然语言推理(XNLI)和多任务基准数据集,旨在评估预训练多语言模型的跨语言泛化能力,涵盖40种语言和九项任务,支持多语言推理和理解的研究与应用。

                数据集链接:

                https://modelscope.cn/datasets/google/xtreme


                InternVL-Data

                InternVL-Data 是由 OpenGVLab 提供的高质量多模态大语言模型(MLLMs)数据集,专注于图像、文本和视频理解任务,旨在支持相关领域的研究和开发,推动多模态模型在多种任务中的性能提升。

                数据集链接:

                https://modelscope.cn/datasets/OpenGVLab/InternVL-Data


                03


                精选应用



                高度逼真的对话声音合成Dia-1.6B

                体验直达:

                https://modelscope.cn/studios/nari-labs/Dia-1.6B

                  小程序:


                Hidream-arena

                体验直达:

                https://modelscope.cn/studios/WaveSpeed/hidream-arena

                  小程序:


                ChatTests编题

                体验直达:

                https://modelscope.cn/studios/aomferni/Chattests_2503

                  小程序:


                04


                社区精选文章





                      👇点击关注ModelScope公众号获取
                      更多技术信息~






                      阅读原文

                      跳转微信打开

                      Fish AI Reader

                      Fish AI Reader

                      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

                      FishAI

                      FishAI

                      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

                      联系邮箱 441953276@qq.com

                      相关标签

                      ModelScope 模型 数据集 AI应用 社区进展
                      相关文章