豆包偷偷升级了，免费上手 o3 级别视觉推理功能，我全测了

原创夕小瑶编辑部 2025-07-31 12:20 北京

昨天我像往常一样打开豆包，想让它帮我查个地方的具体位置。

本来就是一个再普通不过的任务，丢张截图过去，然后等它回我一句“这是哪哪哪”。

结果它这次反应不太一样。

它没有急着给我答案，在思维链里，反而先裁切出图片中的一小块区域，放大后分析：“白色细沙 + 黑色玄武岩礁石 + 远处低矮圆形山丘”，“与济州岛牛岛（Udo）附近的下冯海水浴场（Haemaji Beach）地貌非常相似”……最后，它还真的去搜索并对比了“济州岛白沙”的图片，才给出了最终结论。

我这才发现，它不知道什么时候悄悄升级了——现在，在“深度思考”模式下，豆包开始支持图像分析工具的调用：比如放大某个角落、裁剪图中区域、甚至旋转角度，而且可以边想边搜，为了验证猜想去联网搜图。

这些原先在 o3 和 o4-mini 里高级功能，豆包竟然也支持上了，而且是免费。

豆包你小子，好东西藏着不说是吧。

于是我决定，今天就好好测一测这个新版的豆包 VLM，看看它是不是真能“看图看出个道理来”。

如果说识别地标还算常规操作，那我们来上点难度，考验一下它的“显微镜”能力。

这次换张街景照，图上是某个写字楼广场，人不多，光线逆着，地面上拉出长长的影子。画面左边有一块牌子，但拍得有点斜，看不太清。正常人可能得放大图片，瞪着半分钟才能看出个模糊英文。

我直接问豆包：“左边标志牌上写的是什么？”

它再次展现了什么叫“谋定而后动”，没有瞎猜，而是先分析了一下图中“左侧”的位置，在思维链里说：“需要放大左侧建筑外墙上的标志牌区域，以便清晰辨认文字。”

然后它自动将该区域框选、放大，展示给我一个近距离截图。

图片里能看到白色立体字写着：“Ice Sports Center”。

非常轻松。

你看它表面上干的事，好像也不复杂：识别一下、放大一下、看清楚、给你回一句。但他背后“先理解问题意图，再决定如何处理图片”的过程，是之前我在国产大模型里几乎没见过的。

这种“带思考的视觉能力”，其实才是真正让 AI 靠谱的那一层。

这时候我突然想到：如果标志可以识别，那酒店可不可以？

因为我有个习惯，刷社交平台看到装修风格对胃口的酒店，就会顺手截个图保存下来。也不一定立马去订房，就是那种“有机会想去住一晚”的备忘。

之前的问题是，我过几个月回头再看这些图，基本全都忘了是哪了。

没地标、没 logo、没水印，全靠记忆和感觉。而你知道，感觉这东西，根本靠不住。

于是我翻出其中一张图，扔给豆包，问它：“这是哪家酒店？”

好像还真是这！

豆包接到图片后，立刻开始分析，从墙面材质、装修风格等细节入手，同时进行图文检索，匹配符合这些特征的酒店，很快，给出了具体位置和酒店名称。

这种能力同样适用于“这到底出自哪部剧”的经典疑问，

平时刷到的那些电视剧解读短视频，以前只能靠评论区碰运气，或者问朋友“你看过这个吗”，才有可能拼凑出剧名。

现在你直接截图某一帧画面，扔给豆包，它就能顺着画面去找角色、找场景、找出处，给你一个靠谱的答案。

先锁定核心人物，再去检索他的作品，再从作品里检索出现“草地和小学生姐弟”的剧。我一瞬间不知道该佩服它推理能力，还是佩服它整理逻辑的能力。

当然，如果你以为豆包只是擅长识别图像和查场景，那你就低估它的耐心了。

前几题是考验眼力和信息检索能力，接下来考验脑力。比如说这道图形类智力题。

很多人小时候做过这种题，不难，但也不简单，很考验观察和逻辑演绎。

你必须先看出“图中所有小圆圈在三角形里哪个方向”，比如“左下、右上”，还要判断它到底是在三角形里面，还是外面。然后横着、竖着找出每一行或每一列的逻辑，再排除选项。

我本来以为豆包最多能给我识别一下“这几个图形里圆在什么位置”，然后就放弃了。

但它没有，它真的给我一点一点解题了。

来感受一下思考过程有多长——

结果居然对了。

我当时都想反问一句：“你确定你不收费吗？”

这一路测下来，豆包没一次是在“猜”，它就很老实地干活：看清、分析、验证、再说话。

思考过程非常透明化，学会了使用工具，面对看不清的标志，它知道放大和裁剪，过去只有 o3 才具备，现在在豆包 0 门槛体验。

而且它能主动联网，通过图文搜索来匹配真实世界的信息，将一张孤立的图片置于庞大的互联网知识库中进行分析。

当我拿着截图焦头烂额，它一句“需要先分析图中左上区域”的时候，我突然觉得——诶，好像是我没看清楚。

原来，AI 靠谱的标志，是比人看的还清楚。。

支持图像的链式推理的国产 VLM 产品还不多，这次豆包走在前面了。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签