IT之家 2024年08月23日
浪潮信息发布源 2.0-M32 大模型 4bit / 8bit 量化版:运行显存仅需 23GB,号称性能媲美 LLaMA3
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浪潮信息发布源2.0-M32大模型4bit和8bit量化版,性能比肩700亿参数的LLaMA3开源大模型,降低计算资源要求,且在部分任务中性能更优,已开源并附下载链接。

🎈浪潮信息推出源2.0-M32量化版,将原模型精度量化至int4和int8级别,在保持模型性能基本不变的情况下,进一步提高了模算效率,降低了大模型部署运行的计算资源需求。

💪源2.0-M32量化版的4bit量化版推理运行显存仅需23.27GB,处理每token所需算力约为1.9 GFLOPs,算力消耗仅为同等当量大模型LLaMA3-70B的1/80,而LLaMA3-70B运行显存为160GB,所需算力为140GFLOPs。

🎉源2.0-M32大模型是浪潮信息‘源2.0’系列的最新版本,构建包含32个专家的混合专家模型,模型运行时激活参数为37亿。评测显示,其量化版在MATH、ARC-C任务中,性能超过700亿参数的LLaMA3大模型。

🔗源2.0-M32量化版已开源,提供了Hugging Face平台和modelscope平台的多个下载链接,方便用户获取和使用。

IT之家 8 月 23 日消息,浪潮信息今日发布源 2.0-M32 大模型 4bit 和 8bit 量化版,性能号称“比肩 700 亿参数的 LLaMA3 开源大模型”。

4bit 量化版推理运行显存仅需 23.27GB,处理每 token 所需算力约为 1.9 GFLOPs,算力消耗仅为同等当量大模型 LLaMA3-70B 的 1/80。而 LLaMA3-70B 运行显存为 160GB,所需算力为 140GFLOPs。

据浪潮信息介绍,源 2.0-M32 量化版是“源”大模型团队为进一步提高模算效率,降低大模型部署运行的计算资源要求而推出的版本,将原模型精度量化至 int4 和 int8 级别,并保持模型性能基本不变

源 2.0-M32 大模型是浪潮信息“源 2.0”系列大模型的最新版本,构建包含 32 个专家(Expert)的混合专家模型(MoE),模型运行时激活参数为 37 亿。

评测结果显示,源 2.0-M32 量化版在 MATH(数学竞赛)、ARC-C(科学推理)任务中,性能超过了 700 亿参数的 LLaMA3 大模型。

源 2.0-M32 量化版已开源,IT之家附下载链接如下:

Hugging Face 平台下载链接

modelscope 平台下载链接

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

浪潮信息 源2.0-M32 大模型量化 LLaMA3
相关文章