通义 04月09日 18:05
持续上新!Qwen2.5-Max正式发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

通义千问发布了Qwen2.5-Max模型,该模型在知识、编程、综合能力和人类偏好对齐等多项基准测试中表现出色,达到全球领先水平。Qwen2.5-Max分为指令模型和基座模型,指令模型在与Claude-3.5-Sonnet的对比中表现出色,超越了GPT-4o、DeepSeek-V3和Llama-3.1-405B。基座模型在多项测试中也超越了DeepSeek V3、Llama-3.1-405B和Qwen2.5-72B等开源模型。目前,Qwen2.5-Max已在百炼平台上架,企业和开发者可以通过API调用,用户也可以在Qwen Chat平台上直接体验。

🥇 Qwen2.5-Max在多项主流权威基准测试中展现出全球领先的模型性能,这些测试包括知识(MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等。

💬 通义团队分别评估了Qwen2.5-Max的指令(Instruct)模型和基座(base)模型。指令模型主要面向用户对话体验,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond和MMLU-Pro等基准测试中,与Claude-3.5-Sonnet表现相近,并超越了GPT-4o、DeepSeek-V3和Llama-3.1-405B。

🚀 Qwen2.5-Max的基座模型在11项基准测试中超越了DeepSeek V3、Llama-3.1-405B和Qwen2.5-72B等开源模型,展现了其强大的裸模型性能。

💻 Qwen2.5-Max已在百炼平台上架,模型名称为qwen-max-2025-01-25,企业和开发者可以通过百炼调用新模型API。用户也可以在全新的Qwen Chat平台上直接体验该模型。

2025-01-29 11:01 吉林

欢迎进入Qwen Chat平台免费体验

模型性能全球领先


Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。通义团队分别对Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能进行了评估测试。

指令模型是所有人可直接对话体验到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基准测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。


基座模型反映模型裸性能,由于无法访问GPT-4o和Claude-3.5-Sonnet等闭源模型的基座模型,通义团队将Qwen2.5-Max与目前领先的开源MoE模型 DeepSeek V3、最大的开源稠密模型Llama-3.1-405B,以及同样位列开源稠密模型前列的Qwen2.5-72B进行了对比。


评估结果如下所示,在所有11项基准测试中,Qwen2.5-Max全部超越了对比模型。




更方便地取用


目前,Qwen2.5-Max已在百炼平台上架,模型名称qwen-max-2025-01-25`,企业和开发者都可通过百炼调用新模型API。

同时,也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max,直接与模型对话,或者使用artifacts、搜索等功能。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-Max 大模型 通义千问 模型性能 AI
相关文章