原创 夕小瑶编辑部 2025-06-16 15:21 北京
7 8 6 3 5 (有 3 个数字是正确的,但位置都不对)1 6 3 8 4 (有 1 个数字正确且位置对,有 1 个数字正确但位置不对)9 2 7 4 1 (有 2 个数字正确且位置对,有 1 个数字正确但位置不对)5 6 4 8 3 (有 1 个数字正确且位置对,有 1 个数字正确但位置不对)6 7 1 5 3 (有 2 个数字正确且位置对,有 2 个数字正确但位置不对)推理出这五位数是什么?正确答案是:12753这个题目经常出现在我们编辑部的评测里,我也基本是一路追着 family 群里的测评结果,5 位数的推理就是一个坎。一流大模型梯队中那几位选手能拿下,其他模型都还是搞不定的状态,没想到豆包竟然是国产里边第一个拿下的模型。好家伙这事儿不简单了,我赶紧去复现——268 秒,不到 5 分钟,更快了。我试了登录和未登录两个状态下都能稳定复现。Deepseek的结果——还是挂了。o3, 20 秒解决。再来看下 Gemini 2.5 Pro——呃竟然挂了。。之前 2.5 是 OK 的,不知道是不是最近降智的原因。(PS 浅浅吐槽:2.5 previvew 刚出来时最稳定的,后面几个小版本升级本人觉得都非常不稳定!!)o4-mini 也对了,不过是通过编程穷举法解的。继续往上翻聊天记录,豆包是真的出息了!
7 位数密码推理搞定,13 分钟,没编程好家伙,这每个短句都有点炸裂,少了任何一个短句,都让我觉得有点怀疑,但拼到一起,这事儿就不简单了。今年 4 月份的时候,市面上还没有 AI 解出来 7 位数的推理,连稳定地解决 5 位数都还是个问题。给你们看下 7 位数这道题的原题——答案也先放在这里——5348176反正作为人类,小编我已经弃疗了。如果我是 AI,我选择直接写代码,让枚举法暴力破解(反正 7 位数,顶多也就尝试 1000 万次)。但豆包选择了硬推理了 786 秒,像极了一名倔强的学霸...而且这位家人还发现了一个非常有意思的思考细节——这句话也太萌了,要是豆包是个人的话,我一定立马去摸她的头!最后,在经历长达 10 多分钟的“笔算”之后,豆包找到了答案——可以说是非常牛逼了。为了排除是“抽卡”抽出来的,我还特意自己去跑了一下,发现果然很稳定,而且思考时间快了不少——为了不让 o4 暴力美学发挥作用,我特意加一句不能写代码只能靠推理,但是无济于事,但答案是对了。o3 还是一如既往的稳,推理时间一分半,目前最快。但我也忍不住去想,会不会恰好这道题豆包训练的时候见过?虽然群里不少人都在说最新的豆包 1.6 模型推理能力强,但我还是忍不住自己去跑了一些题目,给你们贴出来看下。下面两道题我统一称为邻居推理题,和上面的数字推理题类似,纯靠推理,更难得是要记忆更多类型事物的关联关系。题目:有五栋五种颜色的房子,每一位房子的主人国籍都不同,这五个人每人只喝一种饮料,只抽一种牌子的香烟,只养一种宠物,没有人有相同的宠物,抽相同牌子的香烟,喝相同的饮料。提示:1 英国人住在红房子里2 瑞典人养了一条狗3 丹麦人喝茶4 绿房子在白房子左边5 绿房子主人喝咖啡6 抽PALL MALL烟的人养了一只鸟7 黄房子主人抽DUNHILL烟8 住在中间那间房子的人喝牛奶9 挪威人住第一间房子10 抽混合烟的人住在养猫人的旁边11 养马人住在抽DUNHILL烟的人旁边12 抽BLUE MASTER烟的人喝啤酒13 德国人抽PRINCE烟14 挪威人住在蓝房子旁边15 抽混合烟的人的邻居喝矿泉水问题是:谁养鱼???这是豆包 1.6 的回答——第二道——5 个人来自不同地方,住不同房子,养不同动物,吸不同牌子香烟,喝不同饮料,喜欢不同食物。根据以下线索确定谁是养猫的人。 1. 红房子在蓝房子的右边,白房子的左边(不一定紧邻) 2. 黄房子的主人来自香港,而且他的房子不在最左边。 3. 爱吃比萨的人住在爱喝矿泉水的人的隔壁。 4. 来自北京的人爱喝茅台,住在来自上海的人的隔壁。 5. 吸希尔顿香烟的人住在养马人的右边隔壁。 6. 爱喝啤酒的人也爱吃鸡。 7. 绿房子的人养狗。 8. 爱吃面条的人住在养蛇人的隔壁。 9. 来自天津的人的邻居(紧邻)一个爱吃牛肉,另一个来自成都。 10.养鱼的人住在最右边的房子里。 11.吸万宝路香烟的人住在吸希尔顿香烟的人和吸“555”香烟的人的中间(紧邻) 12.红房子的人爱喝茶。 13.爱喝葡萄酒的人住在爱吃豆腐的人的右边隔壁。 14.吸红塔山香烟的人既不住在吸健牌香烟的人的隔壁,也不与来自上海的人相邻。 15.来自上海的人住在左数第二间房子里。 16.爱喝矿泉水的人住在最中间的房子里。 17.爱吃面条的人也爱喝葡萄酒。 18.吸“555”香烟的人比吸希尔顿香烟的人住的靠右
正确答案:第一间是兰房子,住北京人,养马,抽健牌香烟,喝茅台,吃豆腐; C 第二间是绿房子,住上海人,养狗,抽希尔顿,喝葡萄酒,吃面条;第三间是黄房子,住香港人,养蛇,抽万宝路,喝矿泉水,吃牛肉; 第四间是红房子,住天津人,抽 555,喝茶,吃比萨;第五间是白房子,住成都人,养鱼,抽红塔山,喝啤酒,吃鸡。以上两道题,豆包 1.6 均是一次过。虽然豆包 1.6 的推理出奇的强,但 Family 群里的测评大佬也找到了一道能把豆包放倒的地狱级三重积分题——
\int_{0}^{\pi} dx \int_{0}^{\pi} dy \int_{0}^{\pi} \frac{dz}{1 - \cos x \cos y \cos z}豆包的回答——果然把豆包干崩了。但三重积分,确实有点太难为 AI 了。Family 群里的大佬也同步测了一重积分题,发现豆包就应对自如了。题目:
[ \int_{0}^{\pi} \left( \frac{\sin(2x) \sin(3x) \sin(5x) \sin(30x)}{\sin(x) \sin(6x) \sin(10x) \sin(15x)} \right)^2 , dx ]除此之外,在测评的过程中,我发现豆包还对一类视觉推理题有点招架不住。比如下面这道题——题目:
问号处是什么数字。提示:第二列很关键,和直角有关。(大家可以在评论区猜一下)第一轮回答一上来就把第二列的图案识别错了,我提示纠正了一下,还是不行。(这道题直接依赖第二列的图案,如果识别不了,就没希望做出来)而【非图形数字类】的视觉推理题目,则要稳得多。比如下面这道题。题目:
由出发点开始,经过每一关时,从 +×÷-中选一个符号,对相邻的两个数字进行运算,到达目的时,答案恰好就是 1,你知道该怎样过关吗?豆包的回答——无论结果还是推理过程,都很稳。最后实话说,要不是有 Family 群里这么多的测评大神,我都不知道原来豆包大模型 1.6 竟然有这么强的推理能力。以前我觉得 DeepSeek-R1 是国内推理模型绝对的领跑者,但经过今天的密集测试,我发现豆包已经悄悄追上来了。然后我在翻聊天记录的时候还发现了一个之前一直熟视无睹的小问题。这句话还真是,在 DeepSeek 火了之后,国内不少大模型厂商的自家 APP 已经投向 DeepSeek 的怀抱了,但豆包 APP 确实是自始至终没见到 DeepSeek 的影子。最后引用一下 Family 群里的测评大神评价——