原创 夕小瑶编辑部 2025-07-31 12:20 北京
昨天我像往常一样打开豆包,想让它帮我查个地方的具体位置。
本来就是一个再普通不过的任务,丢张截图过去,然后等它回我一句“这是哪哪哪”。
结果它这次反应不太一样。
它没有急着给我答案,在思维链里,反而先裁切出图片中的一小块区域,放大后分析:“白色细沙 + 黑色玄武岩礁石 + 远处低矮圆形山丘”,“与济州岛牛岛(Udo)附近的下冯海水浴场(Haemaji Beach)地貌非常相似”……最后,它还真的去搜索并对比了“济州岛白沙”的图片,才给出了最终结论。
我这才发现,它不知道什么时候悄悄升级了——现在,在“深度思考”模式下,豆包开始支持图像分析工具的调用:比如放大某个角落、裁剪图中区域、甚至旋转角度,而且可以边想边搜,为了验证猜想去联网搜图。
这些原先在 o3 和 o4-mini 里高级功能,豆包竟然也支持上了,而且是免费。
豆包你小子,好东西藏着不说是吧。
于是我决定,今天就好好测一测这个新版的豆包 VLM,看看它是不是真能“看图看出个道理来”。
如果说识别地标还算常规操作,那我们来上点难度,考验一下它的“显微镜”能力。
这次换张街景照,图上是某个写字楼广场,人不多,光线逆着,地面上拉出长长的影子。画面左边有一块牌子,但拍得有点斜,看不太清。正常人可能得放大图片,瞪着半分钟才能看出个模糊英文。
我直接问豆包:“左边标志牌上写的是什么?”
它再次展现了什么叫“谋定而后动”,没有瞎猜,而是先分析了一下图中“左侧”的位置,在思维链里说:“需要放大左侧建筑外墙上的标志牌区域,以便清晰辨认文字。”
然后它自动将该区域框选、放大,展示给我一个近距离截图。
图片里能看到白色立体字写着:“Ice Sports Center”。
非常轻松。
你看它表面上干的事,好像也不复杂:识别一下、放大一下、看清楚、给你回一句。但他背后“先理解问题意图,再决定如何处理图片”的过程,是之前我在国产大模型里几乎没见过的。
这种“带思考的视觉能力”,其实才是真正让 AI 靠谱的那一层。
这时候我突然想到:如果标志可以识别,那酒店可不可以?
因为我有个习惯,刷社交平台看到装修风格对胃口的酒店,就会顺手截个图保存下来。也不一定立马去订房,就是那种“有机会想去住一晚”的备忘。
之前的问题是,我过几个月回头再看这些图,基本全都忘了是哪了。
没地标、没 logo、没水印,全靠记忆和感觉。而你知道,感觉这东西,根本靠不住。
于是我翻出其中一张图,扔给豆包,问它:“这是哪家酒店?”
好像还真是这!
豆包接到图片后,立刻开始分析,从墙面材质、装修风格等细节入手,同时进行图文检索,匹配符合这些特征的酒店,很快,给出了具体位置和酒店名称。
这种能力同样适用于“这到底出自哪部剧”的经典疑问,
平时刷到的那些电视剧解读短视频,以前只能靠评论区碰运气,或者问朋友“你看过这个吗”,才有可能拼凑出剧名。
现在你直接截图某一帧画面,扔给豆包,它就能顺着画面去找角色、找场景、找出处,给你一个靠谱的答案。
先锁定核心人物,再去检索他的作品,再从作品里检索出现“草地和小学生姐弟”的剧。我一瞬间不知道该佩服它推理能力,还是佩服它整理逻辑的能力。
当然,如果你以为豆包只是擅长识别图像和查场景,那你就低估它的耐心了。
前几题是考验眼力和信息检索能力,接下来考验脑力。比如说这道图形类智力题。
很多人小时候做过这种题,不难,但也不简单,很考验观察和逻辑演绎。
你必须先看出“图中所有小圆圈在三角形里哪个方向”,比如“左下、右上”,还要判断它到底是在三角形里面,还是外面。然后横着、竖着找出每一行或每一列的逻辑,再排除选项。
我本来以为豆包最多能给我识别一下“这几个图形里圆在什么位置”,然后就放弃了。
但它没有,它真的给我一点一点解题了。
来感受一下思考过程有多长——
结果居然对了。
我当时都想反问一句:“你确定你不收费吗?”
这一路测下来,豆包没一次是在“猜”,它就很老实地干活:看清、分析、验证、再说话。
思考过程非常透明化,学会了使用工具,面对看不清的标志,它知道放大和裁剪,过去只有 o3 才具备,现在在豆包 0 门槛体验。
而且它能主动联网,通过图文搜索来匹配真实世界的信息,将一张孤立的图片置于庞大的互联网知识库中进行分析。
当我拿着截图焦头烂额,它一句“需要先分析图中左上区域”的时候,我突然觉得——诶,好像是我没看清楚。
原来,AI 靠谱的标志,是比人看的还清楚。。
支持图像的链式推理的国产 VLM 产品还不多,这次豆包走在前面了。