IT之家 2024年11月05日
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯近日开源了其研发的Hunyuan-Large大模型,这是目前业界已开源的最大基于Transformer的MoE模型,拥有3890亿参数和520亿激活参数。该模型在训练过程中使用了高质量合成数据,并采用了KV缓存压缩、专家特定学习率缩放等技术,显著提升了模型的性能和效率。Hunyuan-Large支持长上下文处理,能够处理高达256K的文本序列,并在多种语言和任务上进行了广泛的基准测试,验证了其实际应用效果和安全性。腾讯还提供了模型的技术报告、训练推理操作手册以及模型代码,方便开发者使用和研究。

🚀**高质量合成数据增强训练:** 腾讯Hunyuan-Large通过合成数据增强训练,使其能够学习更丰富的表示,处理更长的上下文输入,并更好地泛化到未见数据。

💡**KV缓存压缩技术:** 模型采用了分组查询注意力(GQA)和跨层注意力(CLA)策略,有效减少了KV缓存的内存占用和计算开销,提升了推理吞吐。

⚙️**专家特定学习率缩放:** 为不同专家设置不同的学习率,确保每个子模型都能有效学习,并为整体性能做出贡献。

📖**长上下文处理能力:** 预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力。

IT之家 11 月 5 日消息,腾讯今日宣布推出 Hunyuan-Large 大模型,官方表示这是目前业界已经开源的基于 Transformer 的最大 MoE 模型,拥有 3890 亿总参数(389B)和 520 亿激活参数(52B)。

腾讯今日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。

其中模型技术优势如下:

▲ Hunyuan-Large 预训练模型与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比

IT之家附相关链接如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Hunyuan-Large 大模型 MoE 开源 腾讯
相关文章