2025-07-20 12:30 浙江
模型上新2322个、数据集上新142个、应用上新130个、文章上新7篇
🙋魔搭ModelScope本期社区进展:
📟3072个模型:Voxtral系列、Kimi-K2-Instruct-GGUF、HiDream-E1-1等;
📁193个数据集:AF-Chat、AudioSkills、LongAudio等;
🎨121个创新应用:Qwen-TTS-Demo、7daysfoodHelperV3.0、MNNChat排行榜等;
📄 8 篇内容:
- 通义WebSailor开源,首个挑战BrowseComp基准的开源网络智能体!Kimi Playground与ModelScope MCP合作,共建更智能的Agent2025·全球AI攻防挑战赛启动选手招募:图、视、音三赛道逐鹿,推动AI安全技术进化ModelScope魔搭25年7月发布月报AI 加速科学发现丨Al For Science 专场直播10分钟,用 EvalScope 让文生图模型评估“有理有据”OpenCSG中文数据集助推CMU无分词器模型登顶SOTARM-Gallery: 一站式奖励模型平台
01
模型推荐
- 专用转录模式:可以在纯语音转录模式下运行,以最大化性能。默认情况下,Voxtral 会自动预测源音频的语言并相应地进行转录;长篇内容:具有 32k token的上下文长度,可处理长达 30 分钟的音频转录,或 40 分钟的理解;内置问答和摘要:支持直接通过音频提问。分析音频并生成结构化的摘要,无需单独的 ASR 和语言模型;多语言原生支持:自动语言检测和在全球最广泛使用的语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语)中的领先性能;从语音直接调用函数:根据用户的语音意图直接触发后端功能、工作流或 API 调用;文本理解能力强:保留了其语言模型基础 Mistral Small 3.1 的文本理解能力
Voxtral-Small-24B-2507:
https://modelscope.cn/models/mistralai/Voxtral-Small-24B-2507
Voxtral-Mini-3B-2507:https://www.modelscope.cn/models/mistralai/Voxtral-Mini-3B-2507代码示例:vLLM (推荐)
- 安装:确保从 "main" 安装 vllm,建议使用 uv
这样做应该会自动安装 mistral_common >= 1.8.1。uv pip install -U "vllm[audio]" --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
- 检查:
python -c "import mistral_common; print(mistral_common.__version__)"
- 离线
然后运行:git clone https://github.com/vllm-project/vllm && cd vllm
python examples/offline_inference/audio_language.py --num-audios 2 --model-type voxtral
- 服务
注意:在 GPU 上运行 Voxtral-Small-24B-2507 需要约 55 GB 的 GPU 内存(bf16 或 fp16)。VLLM_USE_MODELSCOPE=true vllm serve mistralai/Voxtral-Small-24B-2507 --tokenizer_mode mistral --config_format mistral --load_format mistral --tensor-parallel-size 2 --tool-call-parser mistral --enable-auto-tool-choice
HiDream-E1-1
智象未来HiDream团队在近期开源了最新迭代的图像编辑模型 HiDream-E1.1,支持动态分辨率,在图像质量和编辑精度方面相比上一代HiDream-E1-Full 有显著提升,评估指标如下:
模型链接:
https://www.modelscope.cn/models/HiDream-ai/HiDream-E1-1
示例代码:先安装 Flash Attention 和最新版本的 Diffusers,官方推荐手动安装CUDA 12.4版本pip install -r requirements.txt
pip install -U flash-attn --no-build-isolation
pip install -U git+https://github.com/huggingface/diffusers.git
可以运行推理脚本来生成图像:
python ./inference_e1_1.py
Kimi-K2-Instruct-GGUF
Moonshot AI 近日开源的 Kimi K2 系列模型,采用 1T 参数混合专家(MoE)架构,通过稀疏激活机制将实际运算参数压缩至 320 亿,却在代码生成、工具调用等任务中展现出对标顶尖闭源模型的能力,开源后迅速引发社区关注与好评 。但同时因原始模型 1.1TB 的存储需求对开发者部署应用构成挑战,开源发布仅一周内,开源社区即推出多个轻量化方案,包括:
Unsloth AI 通过1.8-bit量化将Kimi K2模型体积从1.1TB压缩至245GB,提供UD_IQ1至UD-Q5_K_XL多级方案,Q2_K_XL版本可实现Flappy Bird代码生成等复杂任务;
KVCache.AI则推出Ktransformers支持Kimi K2,Q4_K_M量化版本在单路CPU+消费级GPU场景下实现10 TPS推理,双路CPU启用NUMA优化后性能提升至14 TPS,需约600GB内存及14GB GPU显存支撑384专家并行。