IT之家 8小时前
腾讯混元-A13B 模型发布并开源,极端条件 1 张中低端 GPU 卡即可部署
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯混元大模型家族发布新成员混元-A13B,这是一款基于专家混合(MoE)架构的大模型。该模型总参数800亿,激活参数130亿,性能比肩顶尖开源模型,同时降低推理延迟与计算开销。混元-A13B的开源对个人开发者和中小企业来说是一大利好,仅需少量GPU即可部署。通过MoE架构和20万亿词元语料库,模型在数学、科学和逻辑推理任务上表现出色,并支持快慢思考模式。此外,腾讯还开源了ArtifactsBench和C3-Bench两个新数据集,以完善评估标准。

🚀 混元-A13B采用了MoE(专家混合)架构,总参数800亿,激活参数130亿,在保证效果的同时,降低了推理延迟和计算开销,使得模型更易于部署和使用。

💡 混元-A13B开源后,个人开发者和中小企业仅需一张中低端GPU卡即可部署,降低了使用门槛,推动了AI技术的普及。用户可在Github、HuggingFace等平台下载模型,并在腾讯云上使用API。

📚 混元-A13B在预训练中使用了20万亿高质量网络词元语料库,提升了模型推理能力。模型支持快慢思考模式,用户可根据需求选择,优化计算资源分配,兼顾效率和准确性。

📊 为了更好地评估模型性能,腾讯还开源了两个新数据集:ArtifactsBench主要用于代码评估,C3-Bench针对Agent场景模型评估,为行业提供了更全面的评估标准。

✨ 在实际应用中,混元-A13B在数学推理方面表现出色,例如能够准确比较小数大小并进行分步解析;在智能体(Agent)应用中,可以调用工具,生成出行攻略、数据文件分析等复杂指令。

IT之家 6 月 27 日消息,腾讯混元大模型家族今日宣布迎来新成员 —— 混元-A13B 模型发布并开源

混元-A13B 作为基于专家混合(MoE)架构的大模型,总参数 800 亿、激活参数 130 亿,号称“在效果比肩顶尖开源模型的同时,大幅降低推理延迟与计算开销”。

腾讯混元表示,这对个人开发者和中小企业来说,无疑是个好消息,极端条件下仅需 1 张中低端 GPU 卡即可部署。用户可以在 Github、HuggingFace 等技术社区下载使用,模型 API 已在腾讯云官网上线。

混元-A13B 模型通过 MoE 架构,为每个输入选择性地激活相关模型组件,号称与同等规模的密集模型相比“又快又省”,而且为个人开发者和中小企业提供了一个“可扩展且高效的替代方案”。

预训练中,模型用了 20 万亿高质量网络词元语料库,提升了模型推理能力的上限;完善了 MoE 架构的 Scaling Law (即规模定律)理论体系,为 MoE 架构设计提供了可量化的工程化指导,提升了模型预训练效果。

用户可以按需选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考模式涉及更深、更全面的推理步骤。这优化了计算资源分配,兼顾效率和准确性。

混元还开源了两个新数据集,以填补行业内相关评估标准的空白。其中,ArtifactsBench 主要用于代码评估,构建了一个包含 1825 个任务的新基准;C3-Bench 针对 Agent 场景模型评估,设计了 1024 条测试数据,以发现模型能力的不足。

从具体效果来看,数学推理方面,例如输入“9.11 和 9.9 谁大”,模型可准确完成小数比较,并展现分步解析能力。

对于时下热门的智能体(Agent)应用,模型可调用工具,生成出行攻略、数据文件分析等复杂指令响应。

再看数据和效果。在多个公开数据测试集上,模型在数学、科学和逻辑推理任务上表现出“领先效果”。

IT之家附开源地址:

https://github.com/Tencent-Hunyuan/Hunyuan-A13B

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

腾讯混元 A13B模型 MoE架构 开源 AI
相关文章