原创 特工少女 2025-02-06 19:16 浙江
登上大模型盲测榜单全球前十,数学及编程能力夺冠。
内容编辑丨特工少女
模型测评丨特工小鹏
春节假期期间,除了万众瞩目的 DeepSeek 之外,还有一款模型的发布也不容忽视,它就是 Qwen2.5-Max。
https://qwenlm.github.io/blog/qwen2.5-max/
该模型采用 MoE 架构,预训练数据量达 20 万亿 tokens,基座模型在 11 项基准测试中全面领先开源模型,指令模型则在多项任务中与 Claude-3.5-Sonnet 持平。
模型发布后,阿里巴巴港股在 2 月 3 日至 4 日期间上涨近 12%。市场普遍认为,Qwen2.5-Max 的性能是超越预期的。
虽然得知发布的时间很早,但由于适逢佳节,我们没有投入足够的时间去关注这款模型。不过!这两天 Qwen2.5-Max 登上某大模型盲测榜单全球前十,超越了 Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3 等一众模型的消息,在圈内又掀起了一番热度,也让我们重新重视起了它。
又一高光时刻
Qwen2.5-Max 在 Chatbot Arena 盲测榜单中以 1332 分位列全球第七,超越 DeepSeek V3、Claude-3.5-Sonnet 等国际主流模型。
Chatbot Arena 是业内非常权威且重磅的竞技平台,其含金量体现在:
1. 用户基数大:由于采用众包评估,数据量巨大,提供了高信度和高效度的评估结果。
2. 多维度评估:除了 Elo 评分外,还包括 MT-Bench、MMLU 等多种基准测试,提供了对模型性能的多角度理解。
3. 公信力:由于其开放、匿名的评测机制,避免了主观偏见,被视为一个相对公正的评估平台。
此外,诸多大佬曾经都引用、认可过该榜单。
1. OpenAI 的 Greg Brockman,在他被 OpenAI 开除前的最后一条 Twitter 上,他分享了Chatbot Arena的排行榜,显示 GPT-4-Turbo 超越了 GPT-4。
2. Andrej Karpathy,OpenAI 创始团队成员,在讨论大模型评测时特别提到他只相信两个基准:Chatbot Arena 和 r/LocalLlama。
3. Jan Leike,OpenAI 的超级对齐团队主管,提出了“评价比生成更容易”的理论,并认为 Chatbot Arena 的评测方式符合这种理念。
值得一提的是,官方还表示,Qwen2.5-Max 在数学、编程、硬提示(Hard Prompts)等专业领域表现尤为突出。在榜单中可以看到,Qwen2.5-Max 在数学和编程领域拿下了第一。
实测效果如何?
也是近段时间,阿里云上线了 QwenChat 平台,可以免费使用 Qwen 系列热门模型,还支持不同模型对战。
于是我们在 QwenChat 上进行了一番测试,来实际体验一下 Qwen2.5-Max 的魅力。
我们先拿 2024 考研数学一的所有填空题进行了测试,Qwen2.5-Max 全部回答正确,且思路清晰,计算没有冗余。
今年,首个外国组合 OneRepublic 登上春晚,献唱了一首《Counting Star》,许多网友对这一信号和歌词做了有趣的解读。
我们就让 Qwen2.5-Max 尝试做了一个歌词翻译,先来考验下文学能力。细细看下来还是蛮信达雅的,不逊于春晚官方翻译的美感。
紧接着是一个逻辑推理相关的测试:有 23 枚硬币在桌上,10 枚正面朝上。蒙住你的眼睛(你无法分清正反),如何分成两组,让两组硬币正面朝上的一样多?Qwen2.5-Max 正确的回答出了最优解。
然后是编程算法测试,我们让 Qwen2.5-Max 生成了一个广度搜索算法的教学,效果很优雅。Qwen2.5-Max 是支持 Artifacts 的,通过 Qwen,可以实现交互式的展示搜索过程,并且实时解答。
还有编程开发测试,我们魔改了传统贪吃蛇游戏的规则,变成了双人竞技游戏,Qwen 正确生成代码并可以直接在线游玩。
最后,弱智吧问题、热门数字母个数的问题也不在话下。
国产大模型集体崛起
在榜单中,我们能清楚的看到,Qwen2.5-Max,DeepSeek-V3,还有智谱 GLM-4-Plus、阶跃星辰的 Step-2-16k-exp 纷纷上榜,名列前十。
Chatbot Arena 官方也表示:中美 AI 差距正在快速缩小。
这是一个令人激动的时间节点,Qwen2.5-Max 的发布与走红,不仅是阿里云的技术里程碑,更是中国在全球 AI 竞赛中确立话语权的关键一步。
这也不仅仅是一个个国产大模型的性能突破,也更折射出中国 AI 从“跟跑者”向“规则制定者”的跃迁逻辑。全球 AI 产业的天平正悄然倾斜,这场技术革命的涟漪正在重构资本流向、技术路径与国际话语权。
对于下一步规划,Qwen 模型团队在技术博客中写道:通过规模化强化学习技术的创新应用,我们致力于持续提升大语言模型的思维与推理能力,为实现模型智能超越人类认知边界开辟道路。
近段时间 DeepSeek 团队展示了从 V3 到 R1 的演进路径,其中 DeepSeek-R1-Zero 是一个通过大规模强化学习训练的模型,无需 SFT,即可具备较强的推理能力。DeepSeek 的思路是基于强大的基础模型衍生出专注于推理的模型,证明了强化学习在模型 Scaling 中的重要性。在保持基础模型通用能力的同时,针对复杂推理任务进行定向突破。
当强化学习的规模化效应叠加在优质基模之上,完全可能催生指数级的能力跃迁。因此,按照这个思路,我们更加期待基于 Qwen2.5-Max 开发的推理模型了!
我们相信,Qwen 等国产大模型,在接下来会带给我们更多惊喜。
一起期待,一起见证。