魔搭ModelScope社区 07月20日 21:06
魔搭社区模型速递(7.12-7.19)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ModelScope社区在2025年7月迎来重大更新,新增了3072个模型、193个数据集和121个创新应用。本期亮点包括Mistral AI的Voxtral系列音频模型,其具备强大的音频理解、转录和直接函数调用能力,支持长音频处理;智象未来的HiDream-E1.1图像编辑模型,在图像质量和编辑精度上实现显著提升;以及Moonshot AI开源的Kimi K2系列模型,通过量化技术大幅降低部署门槛。此外,数据集方面,AF-Chat、AudioSkills-XL和LongAudio-XL为NLP和音频模型开发提供了丰富资源。社区还推出了Qwen-TTS-Demo、7daysfoodHelperV3.0等应用,并有多篇精彩文章分享AI最新进展。

🔊 **Voxtral系列音频模型**:Mistral AI发布的Voxtral系列模型是其首个开放式音频模型,在Mistral Small 3基础上集成了强大的音频理解能力。该模型支持长达30分钟的音频转录,内置问答和摘要功能,并能直接从语音意图调用函数。其多语言原生支持和文本理解能力使其在多种场景下表现出色,特别适合处理长篇音频内容。

🖼️ **HiDream-E1.1图像编辑模型**:智象未来开源的HiDream-E1.1模型在图像编辑方面取得了显著进步,支持动态分辨率,并在图像质量和编辑精度上超越了前代。该模型为用户提供了更精细化的图像编辑能力,能够满足更多创意和专业需求。

💡 **Kimi K2系列模型轻量化**:Moonshot AI的Kimi K2模型以其1T参数MoE架构和高效的稀疏激活机制受到关注。为解决其1.1TB的存储挑战,Unsloth AI和KVCache.AI分别推出了1.8-bit量化和KVCache技术,大幅压缩模型体积并优化了部署效率,使其在消费级硬件上也能实现高性能推理。

📊 **丰富的数据集更新**:ModelScope社区新增了AF-Chat对话数据集、AudioSkills-XL长音频问答数据集以及LongAudio-XL长语音问答数据集。这些数据集为开发更智能、更具理解能力的自然语言处理和音频模型提供了宝贵的训练资源,尤其是在复杂对话和长音频理解方面。

🚀 **多元化的创新应用**:本期更新还包括Qwen-TTS-Demo(文本转语音)、7daysfoodHelperV3.0(饮食规划)和MNNChat排行榜(聊天模型性能展示)等应用。这些应用覆盖了语音合成、健康管理、AI评估等多个领域,展示了AI技术在实际生活和工作中的广泛应用潜力。

2025-07-20 12:30 浙江

模型上新2322个、数据集上新142个、应用上新130个、文章上新7篇

🙋魔搭ModelScope本期社区进展:

📟3072个模型:Voxtral系列、Kimi-K2-Instruct-GGUF、HiDream-E1-1等;

📁193个数据集:AF-Chat、AudioSkills、LongAudio等;

🎨121个创新应用Qwen-TTS-Demo、7daysfoodHelperV3.0、MNNChat排行榜等;

📄 8 篇内容:

    通义WebSailor开源,首个挑战BrowseComp基准的开源网络智能体!

    Kimi Playground与ModelScope MCP合作,共建更智能的Agent

    2025·全球AI攻防挑战赛启动选手招募:图、视、音三赛道逐鹿,推动AI安全技术进化

    ModelScope魔搭25年7月发布月报

    AI 加速科学发现丨Al For Science 专场直播

    10分钟,用 EvalScope 让文生图模型评估“有理有据”

    OpenCSG中文数据集助推CMU无分词器模型登顶SOTA

    RM-Gallery: 一站式奖励模型平台

01

模型推荐

Voxtral系列

Voxtral是Mistral AI近期发布的其首个开放式音频模型。 在 Mistral Small 3 的基础上增加了强大的音频理解能力。

    专用转录模式:可以在纯语音转录模式下运行,以最大化性能。默认情况下,Voxtral 会自动预测源音频的语言并相应地进行转录;

    长篇内容:具有 32k token的上下文长度,可处理长达 30 分钟的音频转录,或 40 分钟的理解;

    内置问答和摘要:支持直接通过音频提问。分析音频并生成结构化的摘要,无需单独的 ASR 和语言模型;

    多语言原生支持:自动语言检测和在全球最广泛使用的语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语)中的领先性能;

    从语音直接调用函数:根据用户的语音意图直接触发后端功能、工作流或 API 调用;

    文本理解能力强:保留了其语言模型基础 Mistral Small 3.1 的文本理解能力

模型链接:

Voxtral-Small-24B-2507:

https://modelscope.cn/models/mistralai/Voxtral-Small-24B-2507

Voxtral-Mini-3B-2507:

https://www.modelscope.cn/models/mistralai/Voxtral-Mini-3B-2507

代码示例:

vLLM (推荐)

    安装:确保从 "main" 安装 vllm,建议使用 uv

    uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

    这样做应该会自动安装 mistral_common >= 1.8.1。

      检查:

      python -c "import mistral_common; print(mistral_common.__version__)"

        离线

      可以通过克隆 vLLM 仓库来测试 vLLM 设置是否正常工作:

        git clone https://github.com/vllm-project/vllm && cd vllm

        然后运行:

          python examples/offline_inference/audio_language.py --num-audios 2 --model-type voxtral

            服务

          建议在服务器/客户端设置中使用 Voxtral-Small-24B-2507

          启动一个服务器:

            VLLM_USE_MODELSCOPE=true vllm serve mistralai/Voxtral-Small-24B-2507 --tokenizer_mode mistral --config_format mistral --load_format mistral --tensor-parallel-size 2 --tool-call-parser mistral --enable-auto-tool-choice

            注意:在 GPU 上运行 Voxtral-Small-24B-2507 需要约 55 GB 的 GPU 内存(bf16 或 fp16)。

            HiDream-E1-1

            智象未来HiDream团队在近期开源了最新迭代的图像编辑模型 HiDream-E1.1,支持动态分辨率,在图像质量和编辑精度方面相比上一代HiDream-E1-Full 有显著提升,评估指标如下:

            模型链接:

            https://www.modelscope.cn/models/HiDream-ai/HiDream-E1-1

            示例代码:

            先安装 Flash Attention 和最新版本的 Diffusers,官方推荐手动安装CUDA 12.4版本

              pip install -r requirements.txt

              pip install -U flash-attn --no-build-isolation

              pip install -U git+https://github.com/huggingface/diffusers.git

              可以运行推理脚本来生成图像:

                python ./inference_e1_1.py

                Kimi-K2-Instruct-GGUF

                Moonshot AI 近日开源的 Kimi K2 系列模型,采用 1T 参数混合专家(MoE)架构,通过稀疏激活机制将实际运算参数压缩至 320 亿,却在代码生成、工具调用等任务中展现出对标顶尖闭源模型的能力,开源后迅速引发社区关注与好评 。但同时因原始模型 1.1TB 的存储需求对开发者部署应用构成挑战,开源发布仅一周内,开源社区即推出多个轻量化方案,包括:

                  Unsloth AI 通过1.8-bit量化将Kimi K2模型体积从1.1TB压缩至245GB,提供UD_IQ1至UD-Q5_K_XL多级方案,Q2_K_XL版本可实现Flappy Bird代码生成等复杂任务;

                  KVCache.AI则推出Ktransformers支持Kimi K2,Q4_K_M量化版本在单路CPU+消费级GPU场景下实现10 TPS推理,双路CPU启用NUMA优化后性能提升至14 TPS,需约600GB内存及14GB GPU显存支撑384专家并行。

                模型链接:

                02

                数据集推荐

                AF-Chat

                AF-Chat 是一个对话数据集,主要用于训练和优化自然语言处理模型中的对话功能。该数据集包含丰富的对话样本,能够帮助模型更好地理解和生成自然流畅的对话内容。

                数据集链接:

                https://modelscope.cn/datasets/nv-community/AF-Chat

                AudioSkills

                AudioSkills-XL 是一个大规模的音频问答(AQA)数据集,旨在通过短音频片段(≤30秒)开发(大型)音频-语言模型在专家级推理和问题解决任务上的能力。它在原始的 AudioSkills 集合基础上增加了大约 450万新的问答对,总共达到了 约1000万 多样化的示例。此次发布包括完整的数据集,包括 AudioSkills 和 AudioSkills-XL。

                数据集链接:

                https://modelscope.cn/datasets/nv-community/AudioSkills

                LongAudio

                LongAudio-XL是一个大规模长音频问答 (AQA) 数据集,旨在开发针对长音频片段(30 秒 - 10 分钟)进行长音频推理和问题解决任务的(大型)音频语言模型。它在原有的 LongAudio 数据集上进行了扩展,新增了约100 万个长语音 QA 对,总计约125 万个多样化示例。此次发布包含完整的数据集,包括 LongAudio 和 LongAudio-XL。

                数据集链接:

                https://modelscope.cn/datasets/nv-community/LongAudio

                03

                创空间

                Qwen-TTS-Demo

                Qwen-TTS-Demo 可广泛应用于有声读物制作、语音播报、智能客服、语音助手、教育、多媒体创作、辅助阅读、语音导航、社交媒体、广告、游戏和企业报告等场景,帮助用户高效获取和传递信息,提升体验和效率。

                体验链接:

                https://modelscope.cn/studios/Qwen/Qwen-TTS-Demo

                7daysfoodHelperV3.0

                7daysfoodHelperV3.0 是一款在线饮食规划工具,适用于个人健康管理、营养师咨询、家庭饮食规划、健身饮食管理、餐饮企业菜单规划、健康管理应用集成、老年人和儿童饮食管理、素食者饮食规划、特殊饮食需求管理、旅行饮食规划以及企业员工健康计划等多种场景,帮助用户高效制定和管理一周饮食计划,促进健康生活方式。

                体验链接:

                https://modelscope.cn/studios/harykali/7daysfoodHelperV3.0

                MNNChat

                MNNChat排行榜是一个用于展示和比较不同聊天模型性能的在线应用,适用于人工智能研究、教育、企业技术选型、技术竞赛、行业研究、开发者交流、用户体验评估、技术演示、学术研究以及技术优化等多种场景,帮助用户和开发者快速了解和选择最适合的聊天模型。

                体验链接:

                https://modelscope.cn/studios/harykali/7daysfoodHelperV3.0

                04

                社区精选文章


                👇点击关注ModelScope公众号获取

                更多技术信息~

                阅读原文

                跳转微信打开

                Fish AI Reader

                Fish AI Reader

                AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

                FishAI

                FishAI

                鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

                联系邮箱 441953276@qq.com

                相关标签

                ModelScope AI模型 数据集 开源 音频处理 图像编辑 自然语言处理
                相关文章