动点科技 13小时前
小米宣布开源声音理解大模型MiDashengLM-7B
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米发布并开源MiDashengLM-7B模型,刷新多模态大模型成绩,提升计算效率,旨在终端设备上实现离线部署。

今天小米发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解,声音理解性能在22个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首 Token 延迟(TTFT)仅为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上,小米已着手对该模型做计算效率的进一步升级,寻求终端设备上可离线部署,并完善基于用户自然语言提示的声音编辑等更全面的功能。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米 模型开源 音频处理
相关文章