特工宇宙 02月09日
反超 DeepSeek-V3,新发布的 Qwen2.5-Max 到底有多牛?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Qwen2.5-Max模型采用MoE架构,预训练数据量达20万亿tokens,在多项基准测试中表现出色,尤其在数学和编程领域夺冠。该模型在Chatbot Arena盲测榜单中位列全球第七,超越多个国际主流模型,引发广泛关注。通过在QwenChat平台上的实测,展现了其在数学、文学、逻辑推理和编程算法等方面的卓越能力。Qwen2.5-Max的发布不仅是阿里云的技术里程碑,更是中国在全球AI竞赛中确立话语权的关键一步,标志着国产大模型的集体崛起和中美AI差距的快速缩小。

🏆 **榜单登顶**: Qwen2.5-Max在Chatbot Arena盲测榜单中位列全球第七,并在数学和编程领域拿下第一,超越了Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3等一众模型。

🧮 **实测表现**: 在QwenChat平台上,Qwen2.5-Max在考研数学、歌词翻译、逻辑推理和编程算法等多个领域均表现出色,展现了其强大的综合能力。

🚀 **技术突破**: Qwen2.5-Max的发布是中国在全球AI竞赛中确立话语权的关键一步,标志着国产大模型从“跟跑者”向“规则制定者”的跃迁。

原创 特工少女 2025-02-06 19:16 浙江

登上大模型盲测榜单全球前十,数学及编程能力夺冠。

内容编辑丨特工少女

模型测评丨特工小鹏

春节假期期间,除了万众瞩目的 DeepSeek 之外,还有一款模型的发布也不容忽视,它就是 Qwen2.5-Max

https://qwenlm.github.io/blog/qwen2.5-max/

该模型采用 MoE 架构,预训练数据量达 20 万亿 tokens,基座模型在 11 项基准测试中全面领先开源模型,指令模型则在多项任务中与 Claude-3.5-Sonnet 持平。

模型发布后,阿里巴巴港股在 2 月 3 日至 4 日期间上涨近 12%。市场普遍认为,Qwen2.5-Max 的性能是超越预期的。

虽然得知发布的时间很早,但由于适逢佳节,我们没有投入足够的时间去关注这款模型。不过!这两天 Qwen2.5-Max 登上某大模型盲测榜单全球前十,超越了 Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3 等一众模型的消息,在圈内又掀起了一番热度,也让我们重新重视起了它。

又一高光时刻

Qwen2.5-Max 在 Chatbot Arena 盲测榜单中以 1332 分位列全球第七,超越 DeepSeek V3、Claude-3.5-Sonnet 等国际主流模型。

Chatbot Arena 是业内非常权威且重磅的竞技平台,其含金量体现在:

1. 用户基数大:由于采用众包评估,数据量巨大,提供了高信度和高效度的评估结果。

2. 多维度评估:除了 Elo 评分外,还包括 MT-Bench、MMLU 等多种基准测试,提供了对模型性能的多角度理解。

3. 公信力:由于其开放、匿名的评测机制,避免了主观偏见,被视为一个相对公正的评估平台。

此外,诸多大佬曾经都引用、认可过该榜单。

1. OpenAI 的 Greg Brockman,在他被 OpenAI 开除前的最后一条 Twitter 上,他分享了Chatbot Arena的排行榜,显示 GPT-4-Turbo 超越了 GPT-4。

2. Andrej Karpathy,OpenAI 创始团队成员,在讨论大模型评测时特别提到他只相信两个基准:Chatbot Arena 和 r/LocalLlama。

3. Jan Leike,OpenAI 的超级对齐团队主管,提出了“评价比生成更容易”的理论,并认为 Chatbot Arena 的评测方式符合这种理念。

值得一提的是,官方还表示,Qwen2.5-Max 在数学、编程、硬提示(Hard Prompts)等专业领域表现尤为突出。在榜单中可以看到,Qwen2.5-Max 在数学和编程领域拿下了第一。

实测效果如何?

也是近段时间,阿里云上线了 QwenChat 平台,可以免费使用 Qwen 系列热门模型,还支持不同模型对战。

于是我们在 QwenChat 上进行了一番测试,来实际体验一下 Qwen2.5-Max 的魅力。

https://chat.qwenlm.ai/

我们先拿 2024 考研数学一的所有填空题进行了测试,Qwen2.5-Max 全部回答正确,且思路清晰,计算没有冗余。

今年,首个外国组合 OneRepublic 登上春晚,献唱了一首《Counting Star》,许多网友对这一信号和歌词做了有趣的解读。

我们就让 Qwen2.5-Max 尝试做了一个歌词翻译,先来考验下文学能力。细细看下来还是蛮信达雅的,不逊于春晚官方翻译的美感。

紧接着是一个逻辑推理相关的测试:有 23 枚硬币在桌上,10 枚正面朝上。蒙住你的眼睛(你无法分清正反),如何分成两组,让两组硬币正面朝上的一样多?Qwen2.5-Max 正确的回答出了最优解。

然后是编程算法测试,我们让 Qwen2.5-Max 生成了一个广度搜索算法的教学,效果很优雅。Qwen2.5-Max 是支持 Artifacts 的,通过 Qwen,可以实现交互式的展示搜索过程,并且实时解答。

还有编程开发测试,我们魔改了传统贪吃蛇游戏的规则,变成了双人竞技游戏,Qwen 正确生成代码并可以直接在线游玩。


最后,弱智吧问题、热门数字母个数的问题也不在话下。

国产大模型集体崛起

在榜单中,我们能清楚的看到,Qwen2.5-Max,DeepSeek-V3,还有智谱 GLM-4-Plus、阶跃星辰的 Step-2-16k-exp 纷纷上榜,名列前十。

Chatbot Arena 官方也表示:中美 AI 差距正在快速缩小。

这是一个令人激动的时间节点,Qwen2.5-Max 的发布与走红,不仅是阿里云的技术里程碑,更是中国在全球 AI 竞赛中确立话语权的关键一步。

这也不仅仅是一个个国产大模型的性能突破,更折射出中国 AI 从“跟跑者”向“规则制定者”的跃迁逻辑。全球 AI 产业的天平正悄然倾斜,这场技术革命的涟漪正在重构资本流向、技术路径与国际话语权。

对于下一步规划,Qwen 模型团队在技术博客中写道:通过规模化强化学习技术的创新应用,我们致力于持续提升大语言模型的思维与推理能力,为实现模型智能超越人类认知边界开辟道路。

近段时间 DeepSeek 团队展示了从 V3 到 R1 的演进路径,其中 DeepSeek-R1-Zero 是一个通过大规模强化学习训练的模型,无需 SFT,即可具备较强的推理能力。DeepSeek 的思路是基于强大的基础模型衍生出专注于推理的模型,证明了强化学习在模型 Scaling 中的重要性。在保持基础模型通用能力的同时,针对复杂推理任务进行定向突破。

当强化学习的规模化效应叠加在优质基模之上,完全可能催生指数级的能力跃迁。因此,按照这个思路,我们更加期待基于 Qwen2.5-Max 开发的推理模型了!

我们相信,Qwen 等国产大模型,在接下来会带给我们更多惊喜。

一起期待,一起见证。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-Max 大模型 人工智能 Chatbot Arena 国产AI
相关文章