智源社区 02月05日
杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里最新发布的Qwen2.5-Max大模型在Chatbot Arena榜单上表现出色,超越了DeepSeek-V3等一众知名模型,位列总榜第七。尤其在编程和数学方面表现突出,与满血o1、DeepSeek-R1并列第一。该模型还在网页应用开发WebDev榜单上冲进前十,LMSYS官方评价中国AI正在快速缩小差距。网友测评也显示,Qwen的表现更加稳定。Qwen2.5-Max在代码、推理等方面的能力备受瞩目,并已在Qwen Chat平台上线,企业用户可通过阿里云百炼调用API。

🏆Qwen2.5-Max在Chatbot Arena榜单上超越DeepSeek-V3,总分1332位列总榜第七,并在编程、数学等逻辑性较强的任务中与满血o1和DeepSeek-R1并列第一,展现出强大的实力。

💻Qwen2.5-Max的代码能力突出,能用JavaScript编写象棋游戏,代码简洁易懂好用,具备Artifacts功能,一句话开发的小游戏可立刻开玩。在复杂提示词的推理问题上,也能快速准确地给出结论。

💬Qwen2.5-Max的多轮对话能力和DeepSeek-R1并列第一,长文本处理能力也超过了o1-preview,同时在Arena-Hard、MMLU-Pro等基准测试中,与GPT-4o以及Claude 3.5-Sonnet处于近似或更高的水准。

🚀Qwen2.5-Max已在Qwen Chat平台上线,可免费体验,企业用户可以通过阿里云百炼调用API,方便用户上手实测和商业应用。

刚刚,大模型竞技场榜单上再添一款国产模型——

来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。

同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特别是在编程、数学等方面表现格外突出,能够与满血o1、DeepSeek-R1并列第一。

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,采用模型两两组队交给用户盲测,根据真实对话体验对模型能力进行投票。

也正因此, Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。

在其新开的网页应用开发WebDev榜单上,Qwen2.5-Max也冲进了前十。

对此lmsys官方评价说,中国AI正在快速缩小差距

并且亲身使用过的网友表示,相比之下Qwen的表现更加稳定。

还有人说,Qwen很快就会取代硅谷的所有普通模型。

四种单项能力登顶

综合榜单前三名中第一、二名被谷歌Gemini家族包揽,GPT-4o和DeepSeek-R1并列第三。

Qwen2.5-Max则是和o1-preview一起并列第七名,稍逊于满血o1。

接下来Qwen2.5-Max在各个单项中的表现。

在逻辑性较强的数学和代码任务当中,Qwen2.5-Max的成绩都超过了o1-mini,和满血o1以及DeepSeek-R1并列第一。

并且在数学榜单上并列第一的模型当中,Qwen2.5-Max是唯一一个非推理模型。

如果仔细观察具体的对战记录,还可以发现,Qwen2.5-Max在代码能力上和满血o1进行PK的胜率达到了69%。

复杂提示词任务中,Qwen2.5-Max和o1-preview并列第二,如果仅限英文则可以排到第一,和o1-preview、DeepSeek-R1等平起平坐。

另外,Qwen2.5-Max的多轮对话能力也和DeepSeek-R1并列第一;长文本(不低于500tokens)则排行第三,超过了o1-preview。

此外,阿里还在技术报告中展示了Qwen2.5-Max在一些经典榜单上的表现。

其中指令模型的对比当中,Qwen2.5-Max在Arena-Hard(近似人类偏好)、MMLU-Pro(大学水平知识)等基准当中,都和GPT-4o以及Claude 3.5-Sonnet处于近似或更高的水准。

在开源的基座模型对比当中,Qwen2.5-Max的成绩也全面超过了DeepSeek-V3,并遥遥领先于Llama 3.1-405B。

至于base model,Qwen2.5-Max在大多数基准测试中,也都展现出了显著的优势(闭源模型base model无法访问,只能比较开源模型)

代码/推理突出,支持Artifacts

Qwen2.5-Max上线后,大量网友都来实测。

目前发现它在代码、推理等方面的表现突出。

比如让它用JavaScript写一个象棋游戏。

因为具备Artifacts功能,一句话开发的小游戏,可立刻开玩:

它生成的代码往往更简单易读好用。

复杂提示词的推理问题上,Qwen2.5-Max快速又准确:

您的团队处理客户请求共有3步:

数据收集(阶段A):每个请求需要5分钟。处理(阶段B):每个请求需要10分钟。

验证(阶段C):每个请求花费8分钟。

团队当前按顺序操作,但您正在考虑并行工作流。如果每个阶段分配两个人,并允许并行工作流程,则每小时的产出将增加20%。然而,添加并行工作流在操作开销上要多花费15%。考虑到时间和成本,你是否应该使用并行工作流程来优化效率?

Qwen2.5-Max不到30秒就可以完成全部推理,将整体过程清晰分为5步:当前工作流分析、并行工作流分析、成本含义、成本效率权衡、结论。

最终很快得出结论:应该使用并行工作流程。

与同为非推理模型的DeepSeek-V3相比,Qwen2.5-Max的回答更简洁迅速。

亦或是让它生成一个由ASCII数字组成的旋转球体,离视角最近的数字是纯白的,最远的逐渐变成灰色,背景是黑色。

数单词中特定字母的数量更是不在话下。

如果你也想上手实测,Qwen2.5-Max已在Qwen Chat平台上线,可免费体验。

企业用户可以在阿里云百炼调用Qwen2.5-Max模型的API。

感兴趣的同学,速来尝鲜吧~

—  —

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-Max 大模型 人工智能 Chatbot Arena 阿里云百炼
相关文章