PaperAgent 07月08日 13:59
国产开源LLM大爆发的一周:腾讯、百度、华为,冲~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了三款国产大模型ERNIE 4.5、Hunyuan-A13B和盘古Pro MoE。ERNIE 4.5系列开源模型包含多种规模的MoE和稠密模型,在多项基准测试中表现出色。Hunyuan-A13B是一款基于MoE架构的开源模型,具有紧凑、高效和Agent能力增强的特点。盘古Pro MoE则是一种新型的Mixture of Grouped Experts模型,通过分组专家实现负载均衡,并提供了72B参数的模型。

💡ERNIE 4.5系列模型:百度发布的ERNIE 4.5系列开源模型,包含47B和3B的MoE模型(最大总参数量424B)以及0.3B的稠密参数模型。该模型在多模态异构模型结构上有所创新,并通过跨模态参数共享机制实现模态间知识融合。在28个基准测试中,ERNIE-4.5-300B-A47B-Base在22个测试中超越了DeepSeek-V3-671B-A37B-Base,并在泛化能力、推理和知识密集型任务方面有显著提升。

✨Hunyuan-A13B模型:腾讯推出的Hunyuan-A13B是一个基于MoE架构的开源大型语言模型,尽管只有13B活跃参数(总共80B),但在多项基准任务中表现出色。该模型支持快速和慢速思考模式,原生支持256K上下文窗口,并在Agent任务上进行了优化,在BFCL-v3、τ-Bench和C3-Bench等基准测试中取得了领先结果。此外,Hunyuan-A13B还采用了分组查询注意力(GQA)并支持多种量化格式,实现了高效的推理。

🚀盘古Pro MoE模型:盘古Pro MoE采用新型的Mixture of Grouped Experts (MoGE) 架构,通过在专家选择阶段对专家进行分组,并约束token在每个组内激活等量专家,从而实现设备间天然的负载均衡。基于MoGE架构,构建了总参数量72B、激活参数量16B的模型。该模型词表大小为153376,包含48层,MoGE配置为4个共享专家,64个路由专家分8组,每组激活1个专家,预训练预料为15T。

2025-07-01 23:39 广东

ERNIE 4.5、Hunyuan-A13B、盘古 Pro MoE

百度ERNIE 4.5

文心4.5系列开源模型共10款,涵盖了激活参数规模分别为47B和3B的混合专家(MoE)模型(最大的模型总参数量为424B),以及0.3B的稠密参数模型。对 MoE 架构,提出了一种创新性的多模态异构模型结构,通过跨模态参数共享机制实现模态间知识融合,同时为各单一模态保留专用参数空间。

ERNIE-4.5-300B-A47B-Base 在 28 个基准测试中的 22 个超越了 DeepSeek-V3-671B-A37B-Base,在所有主要能力类别中均有领先的表现。相对于其他SOTA模型,在泛化能力、推理和知识密集型任务方面的显著提升。

https://hf-mirror.com/collections/baidu/ernie-45-6861cd4c9be84540645f35c9

https://github.com/PaddlePaddle/ERNIE

https://ernie.baidu.com/blog/zh/posts/ernie4.5/

腾讯Hunyuan-A13B

Hunyuan-A13B是一个基于精细的专家混合(MoE)架构构建的创新且开源的大型语言模型(LLM)。

关键特点和优势

体验demo: //hunyuan.tencent.com/

https://github.com/Tencent-Hunyuan/Hunyuan-A13B/blob/main/report/Hunyuan_A13B_Technical_Report.pdf

https://hf-mirror.com/tencent/Hunyuan-A13B-Instruct

盘古 Pro MoE (72B-A16B)

一种新型的分组混合专家模型(Mixture of Grouped Experts, MoGE),它在专家选择阶段对专家进行分组,并约束 token 在每个组内激活等量专家,从而实现设备间天然的负载均衡。

基于 MoGE 架构,构建了总参数量 72B、激活参数量 16B 的盘古 Pro MoE 模型:

https://gitcode.com/ascend-tribe/pangu-pro-moe-model

https://arxiv.org/pdf/2505.21411

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ERNIE 4.5 Hunyuan-A13B 盘古Pro MoE 大模型 MoE
相关文章