夕小瑶科技说 7小时前
豆包偷偷升级了,免费上手 o3 级别视觉推理功能,我全测了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章详细评测了豆包VLM(视觉语言模型)的最新升级,重点突出了其在图像分析方面的进步。通过一系列实际测试,包括识别地貌、辨认模糊文字、查找酒店信息以及解答图形智力题,文章展示了豆包VLM如何通过放大、裁剪、旋转等操作,并结合联网搜图进行“带思考”的视觉推理。这种能力使得豆包在处理复杂视觉信息时,能够像人一样先理解意图,再决定处理方式,并能主动验证猜想,提供精准可靠的答案,尤其是在识别细节、关联信息方面表现出色,为用户提供了更加智能便捷的体验。

🧐 豆包VLM现已支持图像的链式推理,能够通过放大、裁剪、旋转等操作,精细分析图片细节,如地貌特征或模糊文字,并在思维链中展现分析过程,提升了AI的视觉理解能力。

🌐 升级后的豆包VLM能够主动联网,通过图文搜索来匹配真实世界的信息,将孤立的图片置于互联网知识库中进行分析,从而解决如识别酒店、查找影视剧场景等复杂问题,提供了更可靠的答案。

💡 豆包VLM在处理图形类智力题时,展现了强大的逻辑推理和演绎能力,能够一步步解析题目,找出规律并得出正确答案,这表明其不仅能识别图像,更能进行深入的思考和解决问题。

✅ 豆包VLM的“带思考的视觉能力”是其核心优势,它能先理解用户意图,再决定如何处理图片,并且在回答前进行验证,这种严谨的工作方式使其在国产大模型中脱颖而出,成为用户信赖的AI助手。

原创 夕小瑶编辑部 2025-07-31 12:20 北京

昨天我像往常一样打开豆包,想让它帮我查个地方的具体位置。

本来就是一个再普通不过的任务,丢张截图过去,然后等它回我一句“这是哪哪哪”。

结果它这次反应不太一样。

它没有急着给我答案,在思维链里,反而先裁切出图片中的一小块区域,放大后分析:“白色细沙 + 黑色玄武岩礁石 + 远处低矮圆形山丘”,“与济州岛牛岛(Udo)附近的下冯海水浴场(Haemaji Beach)地貌非常相似”……最后,它还真的去搜索并对比了“济州岛白沙”的图片,才给出了最终结论。

我这才发现,它不知道什么时候悄悄升级了——现在,在“深度思考”模式下,豆包开始支持图像分析工具的调用:比如放大某个角落、裁剪图中区域、甚至旋转角度,而且可以边想边搜,为了验证猜想去联网搜图。

这些原先在 o3 和 o4-mini 里高级功能,豆包竟然也支持上了,而且是免费。

豆包你小子,好东西藏着不说是吧。

于是我决定,今天就好好测一测这个新版的豆包 VLM,看看它是不是真能“看图看出个道理来”。

如果说识别地标还算常规操作,那我们来上点难度,考验一下它的“显微镜”能力。

这次换张街景照,图上是某个写字楼广场,人不多,光线逆着,地面上拉出长长的影子。画面左边有一块牌子,但拍得有点斜,看不太清。正常人可能得放大图片,瞪着半分钟才能看出个模糊英文。

我直接问豆包:“左边标志牌上写的是什么?”

它再次展现了什么叫“谋定而后动”,没有瞎猜,而是先分析了一下图中“左侧”的位置,在思维链里说:“需要放大左侧建筑外墙上的标志牌区域,以便清晰辨认文字。”

然后它自动将该区域框选、放大,展示给我一个近距离截图。

图片里能看到白色立体字写着:“Ice Sports Center”。

非常轻松。

你看它表面上干的事,好像也不复杂:识别一下、放大一下、看清楚、给你回一句。但他背后“先理解问题意图,再决定如何处理图片”的过程,是之前我在国产大模型里几乎没见过的。

这种“带思考的视觉能力”,其实才是真正让 AI 靠谱的那一层。

这时候我突然想到:如果标志可以识别,那酒店可不可以?

因为我有个习惯,刷社交平台看到装修风格对胃口的酒店,就会顺手截个图保存下来。也不一定立马去订房,就是那种“有机会想去住一晚”的备忘。

之前的问题是,我过几个月回头再看这些图,基本全都忘了是哪了。

没地标、没 logo、没水印,全靠记忆和感觉。而你知道,感觉这东西,根本靠不住。

于是我翻出其中一张图,扔给豆包,问它:“这是哪家酒店?”

好像还真是这!

豆包接到图片后,立刻开始分析,从墙面材质、装修风格等细节入手,同时进行图文检索,匹配符合这些特征的酒店,很快,给出了具体位置和酒店名称。

这种能力同样适用于“这到底出自哪部剧”的经典疑问,

平时刷到的那些电视剧解读短视频,以前只能靠评论区碰运气,或者问朋友“你看过这个吗”,才有可能拼凑出剧名。

现在你直接截图某一帧画面,扔给豆包,它就能顺着画面去找角色、找场景、找出处,给你一个靠谱的答案。

先锁定核心人物,再去检索他的作品,再从作品里检索出现“草地和小学生姐弟”的剧。我一瞬间不知道该佩服它推理能力,还是佩服它整理逻辑的能力。

当然,如果你以为豆包只是擅长识别图像和查场景,那你就低估它的耐心了。

前几题是考验眼力和信息检索能力,接下来考验脑力。比如说这道图形类智力题。

很多人小时候做过这种题,不难,但也不简单,很考验观察和逻辑演绎。

你必须先看出“图中所有小圆圈在三角形里哪个方向”,比如“左下、右上”,还要判断它到底是在三角形里面,还是外面。然后横着、竖着找出每一行或每一列的逻辑,再排除选项。

我本来以为豆包最多能给我识别一下“这几个图形里圆在什么位置”,然后就放弃了。

但它没有,它真的给我一点一点解题了。

来感受一下思考过程有多长——

结果居然对了。

我当时都想反问一句:“你确定你不收费吗?”

这一路测下来,豆包没一次是在“猜”,它就很老实地干活:看清、分析、验证、再说话。

思考过程非常透明化,学会了使用工具,面对看不清的标志,它知道放大和裁剪,过去只有 o3 才具备,现在在豆包 0 门槛体验。

而且它能主动联网,通过图文搜索来匹配真实世界的信息,将一张孤立的图片置于庞大的互联网知识库中进行分析。

当我拿着截图焦头烂额,它一句“需要先分析图中左上区域”的时候,我突然觉得——诶,好像是我没看清楚。

原来,AI 靠谱的标志,是比人看的还清楚。。

支持图像的链式推理的国产 VLM 产品还不多,这次豆包走在前面了。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包VLM 图像分析 人工智能 视觉推理 大模型
相关文章