AI大模型工场 04月09日 18:05
从猜谜语到游戏制作,我们测试了市面最强的三款推理模型,“全能王”出乎意料
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章对多种AI大模型进行测评,包括Grok 3、通义Qwen 2.5 Max、O3-mini、DeepSeek等,从性能、应用场景及用户体验等方面展开,通义Qwen 2.5 Max总分最高,测评结果让人对AI大模型发展充满期待。

Grok 3宣称在数学等基准测试上超越主流模型,但不免费且国内受限。

通义Qwen 2.5 Max在多项测评中表现出色,如猜谜语、编程、考研题等。

O3-mini在部分测评中存在不足,如回答谜语直线思维,编程缺少便捷性。

DeepSeek在一些方面表现不错,但存在用户体验问题,如经常繁忙。

原创 西梅汁 2025-02-19 14:22 北京

全能王”出乎意料



作者西梅汁

编辑|星奈

媒体|AI大模型工场



18日中午,马斯克掏出号称“地表最强”大模型Grok3。


官方宣称,Grok 3和Grok 3 mini在数学、科学和编程基准测试上超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。


同时,具备推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning则是超越了包括DeepSeek-R1和OpenAI的o3 mini在内的推理模型。


不过,这次Grok 3并不免费,DeepSeek并没有卷到XAI:X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。独立APP上,则需要订阅SuperGrok——30美元/月或300美元/年。而且在国内,因为一些众所周知的原因,尽管付费购买也无法使用。


DeepSeek的爆火,让推理模型成为全球关注的焦点,除了此次刚刚发布的Grok 3和DeepSeek-R1外,OpenAI的o3 mini和阿里的Qwen2.5-Max也是市面上推理模型的“王牌选手”。


为此,AI大模型工场决定拉上三位强劲对手来一场“神仙打架”,这三位选手风格迥异,各有绝活,谁能在这场测评中拔得头筹?接下来,我们就从性能、应用场景以及用户体验,全方位扒一扒它们的实力!



谁更懂弯弯绕绕?



先来小试牛刀一下,猜谜语虽然很简单,但其实考验的时AI大模型对语言的理解和逻辑推理能力。


1、通义Qwen 2.5 Max


”豆子捅了包子一刀 打一食物“这个谜语,通义Qwen 2.5 Max首先给出答案”豆沙包“,解析过程简单明了,不愧是咱们的国产大模型,推理能力相当在线。



2、O3-mini


之前就听说O3-mini开始用中文进行思考,但这次回答“包子”倒是让人有点苦笑不得了,虽然逻辑上没什么毛病,但是不得不说有点太直线思维了,缺乏推理能力。


也不知道是不是混合的语言模式太多了,学杂了呢?



3、DeepSeek


DeepSeek同样回答正确,还详细拆解”豆→沙→包“的递进关系,也印证其多步推理能力。


稳稳的让人很安心~






贪吃蛇游戏大考验,谁才是代码大神?



编程能力是大模型的“硬核实力”之一。我们这里用经典的贪吃蛇游戏来测试它们,看看谁能够写出可以运行的代码,让编程小白也可以体验到自主开发一款小游戏的快乐~


1、通义Qwen 2.5 Max 


一站式生成代码,果然是“编程大神”,不仅让游戏顺利运行,还实现了网页端操作。这就好比它不仅会做菜,还能把菜送到你面前,让你吃得方便又开心。



2、O3-mini


虽然游戏可以运行,但是不能在网页端实现一键操作,需要将代码保存为一个 .html 文件,再使用浏览器打开该 HTML 文件。



在根据O3-mini提示方法,AI大模型工场试着用浏览器调用了该代码看看是否可以运行。


代码逻辑没问题,但缺少了一些便捷性,显得有点“冷冰冰”了。



3、DeepSeek


代码同样可以跑通,且支持生成代码+一键运行。


但是它到现在为止还是经常处于繁忙阶段,需要“钻空子”去进行提问,在一定程度还是比较影响用户体验的。





考研问题来啦,哪位“学霸”最终上岸?



再试着用考研题目来检验一下它们对专业知识的掌握程度和逻辑推理能力。


1、通义Qwen 2.5 Max


这位“学霸”再次展现出了强大的实力,轻松地就答对了题目。看来它对专业知识的掌握非常扎实,逻辑推理能力也是一流的,这就好比一个学霸在考试中轻松拿到高分。



2、O3-mini


o3这道题有点“翻车”,答错了题目。这个可能是它对某些知识点的理解还不够深入,在逻辑推理上同样存在失误,给出的两个选项都完美避开正确答案。



3、DeepSeek


DeepSeek表现稳健,同样答对了题目。


但思考时间相对没有通义Qwen 2.5 Max给出的速度快。




艺术细胞大比拼,谁的脑洞最大?



同样,文本创作能力是大模型的“艺术细胞”所在。我们让三位选手写一篇科幻小说,看看大家深度如何。


1、通义Qwen 2.5 Max


开头就是引入“人工智能、基因编辑和量子计算"作为未来社会结构,妥妥的理科脑袋!




2、o3-mini


o3-mini则是以未来地球资源枯竭,人类需要寻找新家园为主题。

嗯?剧情有一种莫名的熟悉感,流浪地球既视感哈哈哈。




3、DeepSeek


DeepSeek的文本创作能力向来不是说着玩的,当你在给出任务1时,它可以自动脑补出任务2、3。


它不仅给出了世界观设定、故事梗概,甚至还贴心的整理出故事背后的逻辑以及隐喻。




PK榜单


从评分结果来看,通义 Qwen 2.5 Max 以总分 36 分的优异成绩拔得头筹,其在理科问题和编程问题上的表现尤为出色,展现出强大的综合实力。DeepSeek R1 以总分 32 分紧随其后,在文本创作、猜谜语、理科问题以及编程问题上同样发挥稳定,基本扣分项都是在用户体验上。O3-mini 则以总分 25 分位列第三,整体表现相对较为平庸,需要在专业知识、逻辑推理和编程能力等方面进一步提升。


这场测评不仅让我们看到了国产大模型的弯道超车,更是让人对未来AI大模型的发展充满了期待!


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。




数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言 阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新,腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型 ▍更多行业大模型案例



上次介绍中国AI大模型平台排行榜 | 1月





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI大模型 测评 通义Qwen 2.5 Max O3-mini DeepSeek
相关文章