IT之家 01月27日
阿里通义千问推出 Qwen2.5-1M 开源模型,支持 100 万 Tokens 上下文
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义千问今日正式开源Qwen2.5-1M模型及其推理框架,包含Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型,首次将开源Qwen模型的上下文扩展至100万tokens。为高效部署,同步开源了基于vLLM的推理框架,并集成稀疏注意力,使处理速度提升3到7倍。在长文本任务中,1M模型能准确检索信息,性能超越128K版本,14B模型在多数据集上超越GPT-4o-mini,短文本任务性能与128K版本相当,且上下文长度是GPT-4o-mini的八倍。这为长上下文任务提供了强大的开源选择。

🚀 通义千问发布了Qwen2.5-1M系列开源模型,首次将上下文长度扩展至100万tokens,包含7B和14B两个版本。

💡 开源了基于vLLM的推理框架,并集成了稀疏注意力方法,使得处理1M tokens输入的速度提升了3到7倍,大大提高了模型部署效率。

🎯 在100万tokens的长文本检索任务中,Qwen2.5-1M系列模型能准确检索信息,性能显著优于之前的128K版本,尤其在处理超过64K长度的任务时表现突出。

🏆 Qwen2.5-14B-Instruct-1M模型在多个数据集上稳定超越GPT-4o-mini,为长上下文任务提供了强大的开源选择。

📝 Qwen2.5-7B和14B模型在短文本任务上的表现与其128K版本相当,保证了基本能力不受影响,同时上下文长度是GPT-4o-mini的八倍。

IT之家 1 月 27 日消息,阿里通义千问今日宣布,正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。

IT之家从官方介绍获悉,通义千问本次发布了两个新的开源模型,分别是 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,这是通义千问首次将开源的 Qwen 模型的上下文扩展到 1M 长度

为了帮助开发者更高效地部署 Qwen2.5-1M 系列模型,Qwen 团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力方法,使得该框架在处理 1M 标记输入时的速度提升了 3 倍到 7 倍

在上下文长度为 100 万 Tokens 的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 系列模型能够准确地从 1M 长度的文档中检索出隐藏信息,其中仅有 7B 模型出现了少量错误。

对于更复杂的长上下文理解任务,选择了 RULER、LV-Eval 和 LongbenchChat 测试集。

从这些结果中,Qwen 得出以下几点关键结论:

显著超越 128K 版本:Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的 128K 版本,特别是在处理超过 64K 长度的任务时表现出色。

性能优势明显:Qwen2.5-14B-Instruct-1M 模型不仅击败了 Qwen2.5-Turbo,还在多个数据集上稳定超越 GPT-4o-mini,为长上下文任务提供了开源模型的选择。

可以发现:

Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 在短文本任务上的表现与其 128K 版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。

与 GPT-4o-mini 相比,Qwen2.5-14B-Instruct-1M 和 Qwen2.5-Turbo 在短文本任务上实现了相近的性能,同时上下文长度是 GPT-4o-mini 的八倍。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 开源模型 长文本 Qwen2.5-1M AI
相关文章