通往AGI之路 02月02日
中国AI速度!除夕夜通义千问连发三大重磅模型,全球领先技术再创新高
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义千问团队在除夕夜发布了Qwen2.5系列,包括性能比肩顶尖模型的Qwen2.5-Max、开源的Qwen2.5-VL视觉模型和具备百万文本处理能力的Qwen2.5-1M。Qwen2.5-Max在多项评测中超越GPT-4o等模型,Qwen2.5-VL增强了物体识别、场景理解和视频处理能力,Qwen2.5-1M的超长文本处理能力也大幅提升。这些突破不仅展示了中国AI的实力,也为全球开发者带来了新的机遇,标志着中国AI技术发展的新高度。

🚀Qwen2.5-Max模型性能卓越:在多项基准测试中,Qwen2.5-Max的指令模型性能比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B等领先模型,展现出强大的综合能力。

👁️Qwen2.5-VL视觉模型开源:该模型在13项权威评测中夺得视觉理解冠军,不仅可以准确识别物体,还能解析图像中的文本、图表、图标等复杂内容,支持超1小时的视频理解,并具备设备操作的Agent能力,可应用于手机和电脑的AI视觉智能体。

📚Qwen2.5-1M超长文本处理:该模型上下文长度扩展至100万tokens,处理速度提升近7倍,能够处理约150万汉字,相当于两部《红楼梦》的内容,并且在长文本检索和理解任务中表现出色,同时短文本任务性能也未受影响。

WaytoAGI 2025-01-29 02:44 新疆

中国AI,速度与实力的象征!除夕夜,通义千问团队重磅发布Qwen2.5系列:Max性能比肩顶尖,VL视觉模型开源突破,1M实现百万文本处理飞跃。这个春节,见证中国AI的辉煌时刻!

中国AI,速度与实力的代名词!DeepSeek刚在全球霸榜,除夕这个阖家团圆的时刻,通义千问团队以“卷”出新高度的姿态,为全球开发者送上了一份重磅新年礼。全新升级的Qwen2.5-Max、开源的Qwen2.5-VL视觉模型以及超长文本处理能力惊人的Qwen2.5-1M接连发布,展现了中国AI在技术突破与开放共享上的绝对实力,这个春节,见证辉煌时刻!








?

【升级】通义千问旗舰版模型全新升级发布 

1️⃣Qwen2.5-Max 

Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。 

?

【开源】通义千问深夜连续两个重大版本开源 

2️⃣Qwen2.5-VL 

全新视觉模型实现重大突破: 

3️⃣Qwen2.5-1M 

超长文本处理能力显著提升: 


经济学人甚至都发出这样的配图,足见中国的人工智能行业发展已经让西方国家感到不安和压力。



详解

Qwen2.5-Max

通义千问旗舰版模型Qwen2.5-Max全新升级发布。Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。 

Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新探索成果,预训练数据超过20万亿tokens。新模型展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了目前全球领先的开源MoE模型以及最大的开源稠密模型。 

目前,开发者可在全新Qwen Chathttps://chat.qwenlm.ai/)平台免费体验模型支持artifacts、搜索等(对比体验了下,MAX效果真不错!),企业和机构也可通过阿里云百炼平台直接调用新模型API服务。 

模型性能全球领先 

 

Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。 

指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。 

 

 

基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。 

 

评估结果如下所示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。 

 

更方便的取用 

目前,Qwen2.5-Max已在阿里云百炼平台上架,模型名称qwen-max-2025-01-25`,企业和开发者都可通过阿里云百炼调用新模型API。 

同时,也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max,直接与模型对话,或者使用artifacts、搜索等功能。 

说明: https://qwenlm.github.io/blog/qwen2.5-max/

对话: chat.qwenlm.ai

API:

HF Demo:


Qwen2.5-VL

AI视觉智能体能力大幅增强

本次开源的 Qwen2.5-VL 模型,推出 3B、7B 和 72B 三个尺寸版本。其中,旗舰版 Qwen2.5-VL-72B 在13项权威评测中夺得 视觉理解冠军 ,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持 超1小时 的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。 

万物识别

Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够 分析图像中的文本、图表、图标、图形和布局。 

Prompt: What are these attractions? Please give their names in Chinese and English. 

Qwen2.5-VL:  

These attractions are: 

1.Top left: The Great Pyramids of Giza (埃及的吉萨大金字塔) 

2.Top right: The Great Wall of China (中国的长城) 

3.Bottom left: The Statue of Liberty (美国的自由女神像) 

4.Bottom right: The Terracotta Army (中国的秦始皇兵马俑) 

分析图像中的文本、图表、图标、图形和布局。 

精准的视觉定位

Qwen2.5-VL 采用矩形框和点的多样化方式对通用物体定位, 可以实现层级化定位和规范的 JSON 格式输出。 增强的定位能力为复杂场景中的视觉 Agent 进行理解和推理任务提供了基础。 

Prompt: Detect all motorcyclists in the image and return their locations in the form of coordinates. The format of output should be like {“bbox_2d”: [x1, y1, x2, y2], “label”: “motorcyclist”, “sub_label”: “wearing helmat” # or “not wearing helmat”}. 

全面的文字识别和理解

Qwen2.5-VL 将 OCR 识别能力 提升至一个新的水平,增强了多场景、多语言和多方向的文本识别和文本定位能力。同时,在信息抽取能力上进行大幅度增强,以满足日益增长的资质审核、金融商务等数字化、智能化需求。 

Prompt: Read all texts in the image, output in lines. 

Qwen2.5-VL: 

平安喜樂 八方來財 順風順水順財神 暴富 大吉 諸事皆順 福 時來運轉 發財 如意 有錢有勢有前程 好運來 

并支持markdown、html、json多格式输出 

Qwen特色文档解析

在 Qwen2.5-VL 中,我们在设计了一种 更全面的文档解析格式, 称为 QwenVL HTML 格式,它既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。基于精心构建的海量数据,QwenVL HTML 可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页、甚至手机截屏等等。 

增强的视频理解

可以支持最长1小时视频理解 

Qwen2.5-VL 的 视频理解能力 经过全面升级,在时间处理上,我们引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。它不仅能够 准确地理解小时级别的长视频内容, 还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。 

对视频中的画面秒级定位 

能够操作电脑和手机的视觉Agent

通过利用内在的感知、解析和推理能力,Qwen2.5-VL 展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务,为创建真正的视觉代理提供了有价值的参考点。 

视频详情 

Prompt:  

Please help me book a one-way ticket in the bookings app. The starting point is Chongqing Jiangbei Airport and the ending point is Beijing Capital Airport on January 28th. 


Qwen2.5-1M

百万Tokens处理速度提升近7倍

本次开源的 Qwen2.5-1M 大模型,我们推出 7B、14B 两个尺寸,均在处理长文本任务中稳定超越GPT-4o-mini;同时开源推理框架,在处理百万级别长文本输入时可实现近7倍的提速。 这也是我们首次将开源 Qwen 模型的上下文扩展到 1M 长度。 

1M长度≈100万个单词≈150万个汉字≈2部《红楼梦》 

长文本处理能力

在上下文长度为 100 万 Tokens 的大海捞针(Passkey Retrieval)任务中,Qwen2.5-1M 能够准确地从 1M 长度的文档中检索出隐藏信息,仅有 7B 模型出现了少量错误。 

对于更复杂的长上下文理解任务,通义官方选择了RULERLV-Eval 和 LongbenchChat。 

从这些结果中,我们可以得出以下几点关键结论: 

    显著超越128K版本:Qwen2.5-1M 系列模型在大多数长上下文任务中显著优于之前的128K版本,特别是在处理超过64K长度的任务时表现出色。

    性能优势明显:Qwen2.5-14B-Instruct-1M 模型不仅击败了 Qwen2.5-Turbo,还在多个数据集上稳定超越 GPT-4o-mini,因此可以作为现有长上下文模型的优秀开源替代。

短序列任务

除了长序列任务的性能外,我们同样关注这些模型在短序列上的表现。我们在广泛使用的学术基准测试中比较了 Qwen2.5-1M 系列模型及之前的128K版本,并加入了 GPT-4o-mini 进行对比。 

我们可以发现: 

关键技术

在这里,我们将简要介绍构建 Qwen2.5-1M 背后的关键技术。更多内容可参阅我们的 技术报告 。 

长上下文训练

长序列的训练需要大量的计算资源,因此我们采用了逐步扩展长度的方法,在多个阶段将 Qwen2.5-1M 的上下文长度从 4K 扩展到 256K: 

通过以上训练,我们最终获得了 256K 上下文长度的指令微调模型。 

长度外推

在上述训练过程中,模型的上下文长度仅为 256K 个 Tokens。为了将其扩展到 1M ,我们采用了长度外推的技术。 

当前,基于旋转位置编码的大型语言模型会在长上下文任务中产生性能下降,这主要是由于在计算注意力权重时,Query 和 Key 之间的相对位置距离过大,在训练过程中未曾见过。为了解决这一问题,我们引入了 Dual Chunk Attention (DCA),该方法通过将过大的相对位置,重新映射为较小的值,从而解决了这一难题。 

我们对 Qwen2.5-1M 模型及之前 128K 的版本进行了评估,分别测试了使用和不使用长度外推方法的情况。 

结果表明:即使是仅在 32K 长度上训练的 Qwen2.5-7B-Instruct,在处理 1M 上下文的 Passkey Retrieval 任务中也能达到近乎完美的准确率。这充分展示了 DCA 在无需额外训练的情况下,也可显著扩展支持的上下文长度的强大能力。 

稀疏注意力机制

对于长上下文的语言模型,推理速度对用户体验至关重要。为了加速预填充阶段,我们引入了基于 MInference 的稀疏注意力优化。在此基础上,我们还提出了一系列改进: 

通过这些改进,我们的推理框架在不同模型大小和 GPU 设备上,处理 1M 长度输入序列的预填充速度提升了 3.2 倍到 6.7 倍。 

本地部署 Qwen2.5-1M 模型

接下来,我们将逐步介绍如何将 Qwen2.5-1M 模型部署到本地设备。 

1. 系统准备

为了获得最佳性能,我们建议使用支持优化内核的 Ampere 或 Hopper 架构的 GPU。 

请确保满足以下要求: 

显存要求,对于处理 1M 长度的序列: 

如果 GPU 显存不满足以上要求,你仍然可以使用 Qwen2.5-1M 进行较短任务的处理。 

2. 安装依赖项

暂时,你需要从我们的自定义分支克隆 vLLM 仓库,并手动安装。我们正在努力将我们的分支提交到 vLLM 项目中。 

git clone -b dev/dual-chunk-attn git@github.com:QwenLM/vllm.git
cd vllm
pip install -e . -v

3. 启动 OpenAI 兼容的 API 服务

使用以下命令启动服务,根据你的硬件配置进行设置: 

vllm serve Qwen/Qwen2.5-7B-Instruct-1M \
  --tensor-parallel-size 4 \
  --max-model-len 1010000 \
  --enable-chunked-prefill --max-num-batched-tokens 131072 \
  --enforce-eager \
  --max-num-seqs 1
# --quantization fp8 # you can use fp8 quantization for model weights to reduce memory usage

参数说明: 

如果遇到问题,请参考 Troubleshooting 相关内容。 

4. 与模型交互

你可以使用以下方法与部署的模型进行交互: 

选项 1. 使用 Curl 

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen2.5-7B-Instruct-1M",
    "messages": [
      {"role": "user", "content": "告诉我一些关于大型语言模型的事情。"}
    ],
    "temperature": 0.7,
    "top_p": 0.8,
    "repetition_penalty": 1.05,
    "max_tokens": 512
  }'

选项 2. 使用 Python 

from openai import OpenAI
openai_api_key = "EMPTY"openai_api_base = "http://localhost:8000/v1"
client = OpenAI(    api_key=openai_api_key,    base_url=openai_api_base,)
prompt = (    "There is an important info hidden inside a lot of irrelevant text. "    "Find it and memorize it. I will quiz you about the important information there.\n\n"    "The pass key is 28884. Remember it. 28884 is the pass key.\n"    "The grass is green. The sky is blue. The sun is yellow. Here we go. There and back again. " * 800    "\nWhat is the pass key?"    # The prompt is approximately 20k tokens long. You can try longer prompts by increasing the multiplier.)
chat_response = client.chat.completions.create(    model="Qwen/Qwen2.5-7B-Instruct-1M",    messages=[{"role""user""content": prompt}],    temperature=0,)print("Chat response:", chat_response.choices[0].message.content)

其他选项 

对于更高级的使用方式,可以探索如 Qwen-Agent 之类的框架。Qwen-Agent 使模型能够读取 PDF 文件或获得更多功能。 

在线体验 Qwen2.5-1M 模型

Huggingface 和 Modelscope 上的在线演示体验 Qwen2.5-1M 模型。 

Huggingface: 

https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo 

Modelscope: 

https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo 

知识库持续更新中,点击阅读原文查看



社区同时进行的活动及比赛

?

“大幅度”挑战赛|截止2025年2月10日23:59分 

本期活动由通义万相2.1模型全力支持,通义万相2.1模型在复杂动作、物理规律还原、文字处理以及电影质感方面都取得了惊艳的进展。 

?投稿传送门? 

https://waytoagi.feishu.cn/share/base/form/shrcnaDNJDBzbEDo4ldTQaiTLon 


LVMH & 阿里云:智能导购创意开发赛|投稿时间:2025年01月23日至02月28日 

国内首次与全球精品时尚行业领军者LVMH集团联合举办的AI应用开发创意活动。不限主题、不限形式,发动创意在阿里云百炼大模型服务平台定义LVMH集团智能导购。 

社区正在组队打比赛,欢迎来找伙伴 

LVMH & 阿里云:智能导购创意开发赛 

?

【给社区同学争取到的免费的干货课程】 

? 春节在家偷偷努力的机会来了!阿里云AI实训营全新升级上线!! 

?本期亮点:在阿里云百炼构建企业级多模态应用 ?‍?资深专家带你实操AI应用场景,?WaytoAGI社群学员免费学习还有好礼相送 

?入口(建议收藏):https://click.aliyun.com/m/1000401467/ 

还可以加入钉钉本期班群,与阿里云专家交流学习,快来加入吧!限时免费! 


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

通义千问 AI模型 长文本处理 视觉模型 开源
相关文章