腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

IT之家 2024年11月05日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

腾讯近日开源了其研发的Hunyuan-Large大模型，这是目前业界已开源的最大基于Transformer的MoE模型，拥有3890亿参数和520亿激活参数。该模型在训练过程中使用了高质量合成数据，并采用了KV缓存压缩、专家特定学习率缩放等技术，显著提升了模型的性能和效率。Hunyuan-Large支持长上下文处理，能够处理高达256K的文本序列，并在多种语言和任务上进行了广泛的基准测试，验证了其实际应用效果和安全性。腾讯还提供了模型的技术报告、训练推理操作手册以及模型代码，方便开发者使用和研究。

🚀**高质量合成数据增强训练:** 腾讯Hunyuan-Large通过合成数据增强训练，使其能够学习更丰富的表示，处理更长的上下文输入，并更好地泛化到未见数据。

💡**KV缓存压缩技术:** 模型采用了分组查询注意力（GQA）和跨层注意力（CLA）策略，有效减少了KV缓存的内存占用和计算开销，提升了推理吞吐。

⚙️**专家特定学习率缩放:** 为不同专家设置不同的学习率，确保每个子模型都能有效学习，并为整体性能做出贡献。

📖**长上下文处理能力:** 预训练模型支持高达256K的文本序列，Instruct模型支持128K的文本序列，显著提升了长上下文任务的处理能力。

IT之家 11 月 5 日消息，腾讯今日宣布推出 Hunyuan-Large 大模型，官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 3890 亿总参数（389B）和 520 亿激活参数（52B）。