量子位 01月29日
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云Qwen模型迎来重大升级,首次将开源模型的上下文长度扩展至100万tokens,新模型Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在长文本处理任务中超越GPT-4o-mini,并实现近7倍的提速。该模型在“大海捞针”式密钥检索任务中表现卓越,并在长上下文理解任务中显著优于之前的128K版本。同时,短文本任务性能保持不变,与GPT-4o-mini性能相近。新模型通过长上下文训练、长度外推和稀疏注意力机制实现性能提升,并提供在线体验。

🚀 **长文本处理能力提升**: 阿里云Qwen2.5-1M系列模型,上下文窗口扩展至100万tokens,在长文本处理任务中超越GPT-4o-mini,并实现近7倍的提速,能高效处理长篇小说、演讲稿和代码。

🔍 **卓越的检索性能**: 在100万tokens的“大海捞针”式密钥检索任务中,Qwen2.5-1M模型展现出卓越的性能,能够精准地从长文档中检索出隐藏信息,其中7B模型仅出现少量错误。

💡 **多项技术加持**: 新模型采用长上下文训练、长度外推和稀疏注意力机制,通过逐步扩展长度、引入Dual Chunk Attention (DCA)解决长上下文性能下降问题,并利用MInference稀疏注意力优化推理速度,提升用户体验。

📊 **短文本性能保持**: Qwen2.5-1M系列模型在短文本任务中的表现与其128K版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响,并且与GPT-4o-mini的短文本性能相近。

关注前沿科技 2025-01-27 13:07 吉林

可在线体验

金磊 整理自 凹非寺
量子位 | 公众号 QbitAI

谈到大模型的“国货之光”,除了DeepSeek之外,阿里云Qwen这边也有新动作——

首次将开源Qwen模型的上下文扩展到1M长度

具体而言,这次的新模型有两个“杯型”:

它们在处理长文本任务中都已经实现稳定超越GPT-4o-mini,并且在处理百万级别长文本输入时可实现近7倍的提速!

(百万Tokens长文本,如果换算来看的话,可以是10本长篇小说、150小时演讲稿或3万行代码。)

目前,Qwen新模型相关的推理框架和技术报告等内容均已经发布。

接下来,我们就来继续深入了解一下。

模型性能

首先,让我们来看看Qwen2.5-1M系列模型在长上下文任务和短文本任务中的性能表现。

在上下文长度高达 100万Tokens的 “大海捞针” 式任务 ——Passkey Retrieval(密钥检索)中,Qwen2.5-1M系列模型展现出卓越性能,能够精准地从长度为1M的文档里检索出隐藏信息。

值得一提的是,在整个系列模型中,仅7B模型出现了为数不多的错误。

对于更复杂的长上下文理解任务,研究团队选择了RULER、LV-Eval和LongbenchChat等测试集。

综合这些结果来看,可以得到的关键结论如下:

一方面,Qwen2.5-1M系列模型相比之前的128K版本有显著进步。

在多数长上下文任务场景中,它表现更为出色,特别是应对超过64K长度的任务时,能够更有效地处理信息,展现出相较于128K版本更强的适应性与处理能力。

另一方面,Qwen2.5-14B-Instruct-1M模型具备一定优势。

在与Qwen2.5-Turbo以及GPT-4o-mini的对比中,该模型在多个数据集上的测评成绩更为突出。

这意味着,在现有的长上下文模型可选范围内,它作为开源模型,能够为使用者提供一种性能相对可靠、可替代其他产品的选择,不过不同模型都有各自的特点与适用场景,仍需依据具体需求进行判断。

除了长序列任务的性能外,我们同样关注这些模型在短序列上的表现

团队在广泛使用的学术基准测试中比较了Qwen2.5-1M系列模型及之前的128K版本,并加入了GPT-4o-mini进行对比。

由此可以发现:

如何炼成的?

在介绍完性能之后,我们来看下Qwen新模型背后的关键技术。

主要可以分为三大步骤,它们分别是长上下文训练长度外推稀疏注意力机制

长序列的训练需要大量的计算资源,因此团队采用了逐步扩展长度的方法,在多个阶段将Qwen2.5-1M的上下文长度从4K扩展到256K:

监督微调阶段,团队分两个阶段进行以保持短序列上的性能:* 第一阶段:仅在短指令(最多32K长度)上进行微调,这里我们使用与Qwen2.5的128K版本相同的数据和步骤数,以获得类似的短任务性能。

强化学习阶段,团队在短文本(最多8K长度)上训练模型。团队发现,即使在短文本上进行训练,也能很好地将人类偏好对齐性能泛化到长上下文任务中。

通过以上训练,最终获得了256K上下文长度的指令微调模型。

在上述训练过程中,模型的上下文长度仅为256K个Tokens。为了将其扩展到1M ,团队采用了长度外推的技术。

当前,基于旋转位置编码的大型语言模型会在长上下文任务中产生性能下降,这主要是由于在计算注意力权重时,Query和Key之间的相对位置距离过大,在训练过程中未曾见过。

为了解决这一问题,团队引入了Dual Chunk Attention (DCA),该方法通过将过大的相对位置,重新映射为较小的值,从而解决了这一难题。

结果表明,即使是仅在32K长度上训练的Qwen2.5-7B-Instruct,在处理1M上下文的Passkey Retrieval任务中也能达到近乎完美的准确率。

这充分展示了DCA在无需额外训练的情况下,也可显著扩展支持的上下文长度的强大能力。

最后,便是稀疏注意力机制

对于长上下文的语言模型,推理速度对用户体验至关重要。为为此,团队引入了基于MInference的稀疏注意力优化。

在此基础上,研究人员还提出了一系列改进:包括分块预填充、集成长度外推方案、稀疏性优化等。

通过这些改进,团队的推理框架在不同模型大小和GPU设备上,处理1M长度输入序列的预填充速度提升了3.2倍到6.7倍。

最后,该项目已经提供了在线体验的地址,感兴趣的小伙伴可以去尝鲜了~

HuggingFace体验地址:
https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo

魔塔社区体验地址:
https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo

技术报告:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

参考链接:
https://qwenlm.github.io/zh/blog/qwen2.5-1m/

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告


一键关注 👇 点亮星标

科技前沿进展每日见


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen模型 长文本处理 大模型 AI 阿里云
相关文章