唯一能做对「5位数字密码推理」的国产大模型出现了

原创夕小瑶编辑部 2025-06-16 15:21 北京

事情是这样的，上周三，豆包 1.6 发布后，我发现我们的 family 群里关于豆包新模型 1.6 的讨论一直没间断过。

我今天忍不住花了些时间，研究了下大家都在讨论什么。

看到一个眼前一亮的结论，是 Family 群里一位测评达人的讨论——

好多小伙伴可能不知道「数字密码推理题」的故事背景，我先给你们介绍下。

这道题是我们 family 群里的一道老传统测试题了，最早能追溯到去年 12 月份，也就是国内推理大模型刚出来的时候。

一开始是 4 位数，然后是 5 位数，甚至是 7 位数。

五位数推理，题目是这样的——

7 8 6 3 5 （有 3 个数字是正确的，但位置都不对）
1 6 3 8 4 （有 1 个数字正确且位置对，有 1 个数字正确但位置不对）
9 2 7 4 1 （有 2 个数字正确且位置对，有 1 个数字正确但位置不对）
5 6 4 8 3 （有 1 个数字正确且位置对，有 1 个数字正确但位置不对）
6 7 1 5 3 （有 2 个数字正确且位置对，有 2 个数字正确但位置不对）
推理出这五位数是什么？

正确答案是：12753

这个题目经常出现在我们编辑部的评测里，我也基本是一路追着 family 群里的测评结果，5 位数的推理就是一个坎。一流大模型梯队中那几位选手能拿下，其他模型都还是搞不定的状态，没想到豆包竟然是国产里边第一个拿下的模型。

好家伙这事儿不简单了，我赶紧去复现——

268 秒，不到 5 分钟，更快了。我试了登录和未登录两个状态下都能稳定复现。

Deepseek的结果——还是挂了。

o3， 20 秒解决。

再来看下 Gemini 2.5 Pro——

呃竟然挂了。。之前 2.5 是 OK 的，不知道是不是最近降智的原因。（PS 浅浅吐槽：2.5 previvew 刚出来时最稳定的，后面几个小版本升级本人觉得都非常不稳定！！）

o4-mini 也对了，不过是通过编程穷举法解的。

继续往上翻聊天记录，豆包是真的出息了！

7 位数密码推理搞定，13 分钟，没编程

好家伙，这每个短句都有点炸裂，少了任何一个短句，都让我觉得有点怀疑，但拼到一起，这事儿就不简单了。

今年 4 月份的时候，市面上还没有 AI 解出来 7 位数的推理，连稳定地解决 5 位数都还是个问题。

给你们看下 7 位数这道题的原题——

答案也先放在这里——

5348176

反正作为人类，小编我已经弃疗了。

如果我是 AI，我选择直接写代码，让枚举法暴力破解（反正 7 位数，顶多也就尝试 1000 万次）。

但豆包选择了硬推理了 786 秒，像极了一名倔强的学霸...

而且这位家人还发现了一个非常有意思的思考细节——

这句话也太萌了，要是豆包是个人的话，我一定立马去摸她的头！

最后，在经历长达 10 多分钟的“笔算”之后，豆包找到了答案——

可以说是非常牛逼了。

为了排除是“抽卡”抽出来的，我还特意自己去跑了一下，发现果然很稳定，而且思考时间快了不少——

为了不让 o4 暴力美学发挥作用，我特意加一句不能写代码只能靠推理，但是无济于事，但答案是对了。

o3 还是一如既往的稳，推理时间一分半，目前最快。

但我也忍不住去想，会不会恰好这道题豆包训练的时候见过？

虽然群里不少人都在说最新的豆包 1.6 模型推理能力强，但我还是忍不住自己去跑了一些题目，给你们贴出来看下。

下面两道题我统一称为邻居推理题，和上面的数字推理题类似，纯靠推理，更难得是要记忆更多类型事物的关联关系。

题目：有五栋五种颜色的房子，每一位房子的主人国籍都不同，这五个人每人只喝一种饮料，只抽一种牌子的香烟，只养一种宠物，没有人有相同的宠物，抽相同牌子的香烟，喝相同的饮料。提示：１　英国人住在红房子里２　瑞典人养了一条狗３　丹麦人喝茶４　绿房子在白房子左边５　绿房子主人喝咖啡６　抽ＰＡＬＬ　ＭＡＬＬ烟的人养了一只鸟７　黄房子主人抽ＤＵＮＨＩＬＬ烟８　住在中间那间房子的人喝牛奶９　挪威人住第一间房子１０　抽混合烟的人住在养猫人的旁边１１　养马人住在抽ＤＵＮＨＩＬＬ烟的人旁边１２　抽ＢＬＵＥ　ＭＡＳＴＥＲ烟的人喝啤酒１３　德国人抽ＰＲＩＮＣＥ烟１４　挪威人住在蓝房子旁边１５　抽混合烟的人的邻居喝矿泉水问题是：谁养鱼？？？

这是豆包 1.6 的回答——

第二道——

5 个人来自不同地方，住不同房子，养不同动物，吸不同牌子香烟，喝不同饮料，喜欢不同食物。根据以下线索确定谁是养猫的人。 1．红房子在蓝房子的右边，白房子的左边（不一定紧邻） 2．黄房子的主人来自香港，而且他的房子不在最左边。 3．爱吃比萨的人住在爱喝矿泉水的人的隔壁。 4．来自北京的人爱喝茅台，住在来自上海的人的隔壁。 5．吸希尔顿香烟的人住在养马人的右边隔壁。 6．爱喝啤酒的人也爱吃鸡。 7．绿房子的人养狗。 8．爱吃面条的人住在养蛇人的隔壁。 9．来自天津的人的邻居（紧邻）一个爱吃牛肉，另一个来自成都。 10．养鱼的人住在最右边的房子里。 11．吸万宝路香烟的人住在吸希尔顿香烟的人和吸“555”香烟的人的中间（紧邻） 12．红房子的人爱喝茶。 13．爱喝葡萄酒的人住在爱吃豆腐的人的右边隔壁。 14．吸红塔山香烟的人既不住在吸健牌香烟的人的隔壁，也不与来自上海的人相邻。 15．来自上海的人住在左数第二间房子里。 16．爱喝矿泉水的人住在最中间的房子里。 17．爱吃面条的人也爱喝葡萄酒。 18．吸“555”香烟的人比吸希尔顿香烟的人住的靠右

正确答案：第一间是兰房子，住北京人，养马，抽健牌香烟，喝茅台，吃豆腐; C 第二间是绿房子，住上海人，养狗，抽希尔顿，喝葡萄酒，吃面条；第三间是黄房子，住香港人，养蛇，抽万宝路，喝矿泉水，吃牛肉；第四间是红房子，住天津人，抽 555，喝茶，吃比萨；第五间是白房子，住成都人，养鱼，抽红塔山，喝啤酒，吃鸡。

以上两道题，豆包 1.6 均是一次过。

虽然豆包 1.6 的推理出奇的强，但 Family 群里的测评大佬也找到了一道能把豆包放倒的地狱级三重积分题——