歸藏的AI工具箱 2024年07月27日
阿里发布最强开源模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里巴巴日前开源了其最新的语言模型通义Qwen2,该模型在Huggingface LLM开源模型榜单上超越了Llama3和众多其他开源模型,成为目前规模最强大的开源模型。通义Qwen2系列包含五个尺寸的模型,从0.5B到72B参数不等,其中Qwen2-57B-A14B是混合专家模型(MoE)。该模型在中文和英文语料基础上,增加了27种语言的高质量数据,并支持高达128K tokens的上下文长度。在多个评测基准上,通义Qwen2的表现均优于Llama-3-70B等领先模型,尤其是在代码和数学能力方面表现突出。

🤩 **模型架构与训练数据:** 通义Qwen2系列包含五个尺寸的模型,从0.5B到72B参数不等,其中Qwen2-57B-A14B是混合专家模型(MoE)。该模型在中文和英文语料基础上,增加了27种语言的高质量数据,并支持高达128K tokens的上下文长度。为了提升模型的推理速度和显存占用,所有尺寸的模型都使用了GQA技术。针对小模型,使用了tie embedding方法,让输入和输出层共享参数,增加非embedding参数的占比。

💪 **性能提升与优势:** 通义Qwen2在多个评测基准上表现出色,尤其是在代码和数学能力方面表现突出。得益于精心设计的数据集和优化的训练方法,通义Qwen2-72B在各方面的表现均优于Llama-3-70B等领先模型。值得注意的是,尽管Qwen2-72B的参数比前代Qwen1.5-110B更少,但其性能却有显著提升。

🚀 **训练方法与模型对齐:** 通义Qwen2在训练过程中,结合了有监督微调、反馈模型训练以及在线DPO等方法,并采用了在线模型合并方法减少对齐税。这些做法都大幅提升了模型的基础能力以及模型的智能水平。Qwen2-72B-Instruct在提升能力和对齐人类价值方面实现了良好的平衡,在所有基准测试中都显著超越了Qwen1.5-72B-Chat,并且与Llama-3-70B-Instruct相比也具备很强的竞争力。

🌐 **开源合作与应用:** 通义Qwen2系列模型正在全球爆火,近一个月内总下载量翻倍,已突破1600万次。海内外开源社区已经出现了超过1500款基于Qwen二次开发的模型和应用。用户可以在魔搭社区、Huggingface等平台以及快速部署框架下载最新的Qwen2模型文件。

🌟 **其他亮点:** 通义Qwen2在推理能力的代码和数学以及长文本表现尤其突出。他们成功将CodeQwen1.5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。测试显示,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。

原创 歸藏 2024-06-07 14:58 北京

阿里昨晚开源了通义Qwen2模型,可以说是现阶段这个规模最强的开源模型,发布后直接在 Huggingface

阿里昨晚开源了通义Qwen2模型,可以说是现阶段这个规模最强的开源模型,发布后直接在 Huggingface LLM 开源模型榜单获得第一名,超过了刚发布的 Llama3 和一众开源模型。Huggingface 亲自发布。当然测试得分也超过了一系列国内不开源的模型。

模型概况

Qwen 2 模型系列有五个尺寸的模型组成,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B为混合专家模型(MoE)。

模型细节

在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,以便让大家体验到GQA带来的推理加速和显存占用降低的优势。针对小模型,由于embedding参数量较大,我们使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。

上下文长度方面,所有的预训练模型均在32K tokens的数据上进行训练,并且他们发现其在128K tokens时依然能在PPL评测中取得不错的表现。

然而,对指令微调模型而言,除PPL评测之外还需要进行大海捞针[1]等长序列理解实验。在使用YARN这类方法时,Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

尽管大语言模型本身具有一定的泛化性,他们还是针对性地对除中英文以外的27种语言进行了增强。

同时他们还针对性地优化了多语言场景中常见的语言转换(code switch)问题,模型当前发生语言转换的概率大幅度降低。

模型评价

接下来看一下模型效果,除了晒出模型的测试结果外千问团队还介绍了他们帮助模型在推理以及自动化训练方面做的努力和对应的方案。

比较评估显示,大规模模型(70B+ 参数)的性能相比 Qwen1.5 有了显著提升。

对基础语言模型 Qwen2-72B 及最先进的开放模型进行了多方面评估,包括自然语言理解、知识获取、编码能力、数学技能和多语言能力。

得益于精心设计的数据集和优化的训练方法,Qwen2-72B 在各方面的表现均优于 Llama-3-70B 等领先模型。

尤其值得注意的是,尽管 Qwen2-72B 的参数比前代 Qwen1.5-110B 更少,但其性能却有显著提升。

微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。

探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,其中包括针对数学的拒绝采样[2]、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的scalable oversight[3]、等等。

在训练方面,结合了有监督微调、反馈模型训练以及在线DPO等方法。还采用了在线模型合并[4]的方法减少对齐税。这些做法都大幅提升了模型的基础能力以及模型的智能水平。

对 Qwen2-72B-Instruct 在各个领域的 16 个基准上进行了全面测试和评估。

Qwen2-72B-Instruct 在提升能力和对齐人类价值方面实现了良好的平衡。具体来说,Qwen2-72B-Instruct 在所有基准测试中都显著超越了 Qwen1.5-72B-Chat,并且与 Llama-3-70B-Instruct 相比也具备很强的竞争力。

对于较小规模的模型,Qwen2 系列同样优于同类甚至更大规模的最新 SOTA 模型。与最新发布的 SOTA 模型相比,Qwen2-7B-Instruct 仍然在各项基准测试中表现出色,特别是在编码能力和中文相关指标上表现尤为突出。

主要优势

Qwen2在代表推理能力的代码和数学以及长文本表现尤其突出。

他们成功将CodeQwen1.5[5]的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。

Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN[6]Dual Chunk Attention[7]等技术扩展至更长的上下文长度。

测试显示,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。

使用 Qwen2

Qwen团队依旧与整个开源社区保持了良好的合作和共建。Qwen系列模型正在全球爆火,近一个月内总下载量翻倍,已突破1600万次。海内外开源社区已经出现了超过1500款基于Qwen二次开发的模型和应用。

你可以在魔搭社区进行模型下载:

Qwen2-72B https://modelscope.cn/models/qwen/Qwen2-72B

Qwen2-72B-Instruct https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

也可以在自己经常使用的 Huggingface 等平台以及快速部署框架下载最新的Qwen2模型文件。

如果想要快速体验Qwen2的话也可以在魔搭的Open Compass竞技场试试:https://modelscope.cn/studios/opencompass/CompassArena/summary


参考资料

[1]

大海捞针: https://github.com/gkamradt/LLMTest_NeedleInAHaystack

[2]

拒绝采样: https://arxiv.org/pdf/2308.01825

[3]

scalable oversight: https://arxiv.org/pdf/2401.12474

[4]

在线模型合并: https://arxiv.org/pdf/2405.17931

[5]

CodeQwen1.5: https://qwenlm.github.io/blog/codeqwen1.5/

[6]

YARN: https://arxiv.org/abs/2309.00071

[7]

Dual Chunk Attention: https://arxiv.org/abs/2402.17463


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义Qwen2 开源模型 LLM 阿里巴巴 Huggingface
相关文章