原创 歸藏 2024-06-07 14:58 北京
阿里昨晚开源了通义Qwen2模型,可以说是现阶段这个规模最强的开源模型,发布后直接在 Huggingface
阿里昨晚开源了通义Qwen2模型,可以说是现阶段这个规模最强的开源模型,发布后直接在 Huggingface LLM 开源模型榜单获得第一名,超过了刚发布的 Llama3 和一众开源模型。Huggingface 亲自发布。当然测试得分也超过了一系列国内不开源的模型。
模型概况
Qwen 2 模型系列有五个尺寸的模型组成,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B为混合专家模型(MoE)。
模型在中文、英文语料基础上,训练数据中增加了27种语言相关的高质量数据;
增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。
多个评测基准上的领先表现;
代码和数学能力显著提升;
模型细节
在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,以便让大家体验到GQA带来的推理加速和显存占用降低的优势。针对小模型,由于embedding参数量较大,我们使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。
上下文长度方面,所有的预训练模型均在32K tokens的数据上进行训练,并且他们发现其在128K tokens时依然能在PPL评测中取得不错的表现。
然而,对指令微调模型而言,除PPL评测之外还需要进行大海捞针[1]等长序列理解实验。在使用YARN这类方法时,Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。
尽管大语言模型本身具有一定的泛化性,他们还是针对性地对除中英文以外的27种语言进行了增强。
同时他们还针对性地优化了多语言场景中常见的语言转换(code switch)问题,模型当前发生语言转换的概率大幅度降低。
模型评价
接下来看一下模型效果,除了晒出模型的测试结果外千问团队还介绍了他们帮助模型在推理以及自动化训练方面做的努力和对应的方案。
比较评估显示,大规模模型(70B+ 参数)的性能相比 Qwen1.5 有了显著提升。
对基础语言模型 Qwen2-72B 及最先进的开放模型进行了多方面评估,包括自然语言理解、知识获取、编码能力、数学技能和多语言能力。
得益于精心设计的数据集和优化的训练方法,Qwen2-72B 在各方面的表现均优于 Llama-3-70B 等领先模型。
尤其值得注意的是,尽管 Qwen2-72B 的参数比前代 Qwen1.5-110B 更少,但其性能却有显著提升。
微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。
探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,其中包括针对数学的拒绝采样[2]、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的scalable oversight[3]、等等。
在训练方面,结合了有监督微调、反馈模型训练以及在线DPO等方法。还采用了在线模型合并[4]的方法减少对齐税。这些做法都大幅提升了模型的基础能力以及模型的智能水平。
对 Qwen2-72B-Instruct 在各个领域的 16 个基准上进行了全面测试和评估。
Qwen2-72B-Instruct 在提升能力和对齐人类价值方面实现了良好的平衡。具体来说,Qwen2-72B-Instruct 在所有基准测试中都显著超越了 Qwen1.5-72B-Chat,并且与 Llama-3-70B-Instruct 相比也具备很强的竞争力。
对于较小规模的模型,Qwen2 系列同样优于同类甚至更大规模的最新 SOTA 模型。与最新发布的 SOTA 模型相比,Qwen2-7B-Instruct 仍然在各项基准测试中表现出色,特别是在编码能力和中文相关指标上表现尤为突出。
主要优势
Qwen2在代表推理能力的代码和数学以及长文本表现尤其突出。
他们成功将CodeQwen1.5[5]的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。
Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN[6]或Dual Chunk Attention[7]等技术扩展至更长的上下文长度。
测试显示,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。
使用 Qwen2
Qwen团队依旧与整个开源社区保持了良好的合作和共建。Qwen系列模型正在全球爆火,近一个月内总下载量翻倍,已突破1600万次。海内外开源社区已经出现了超过1500款基于Qwen二次开发的模型和应用。
你可以在魔搭社区进行模型下载:
Qwen2-72B https://modelscope.cn/models/qwen/Qwen2-72B
Qwen2-72B-Instruct https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
也可以在自己经常使用的 Huggingface 等平台以及快速部署框架下载最新的Qwen2模型文件。
如果想要快速体验Qwen2的话也可以在魔搭的Open Compass竞技场试试:https://modelscope.cn/studios/opencompass/CompassArena/summary
参考资料
[1]
大海捞针: https://github.com/gkamradt/LLMTest_NeedleInAHaystack
[2]
拒绝采样: https://arxiv.org/pdf/2308.01825
[3]
scalable oversight: https://arxiv.org/pdf/2401.12474
[4]
在线模型合并: https://arxiv.org/pdf/2405.17931
[5]
CodeQwen1.5: https://qwenlm.github.io/blog/codeqwen1.5/
[6]
YARN: https://arxiv.org/abs/2309.00071
[7]
Dual Chunk Attention: https://arxiv.org/abs/2402.17463