智源社区 02月22日
刚刚,DeepSeek能看懂猫片了!腾讯混元加持
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯AI助手“腾讯元宝”迎来重要更新,其接入的DeepSeek模型现在能够理解图片信息,不再局限于识别文字。通过结合混元的多模态理解能力,元宝能分析和理解用户上传的图片内容。实测表明,DeepSeek不仅能准确描述图片中的场景和物体,还能进行更深层次的推理和思考,例如解读猫咪的姿态、理解机器人的对话,甚至解答脑筋急转弯。尽管在识别人像方面仍有提升空间,但元宝通过双模型聚合,显著提升了用户体验,并在一系列快速迭代中不断完善功能,支持图片解析、文件处理和联网搜索等。

🐱DeepSeek模型现在能够理解图片信息,通过结合混元的多模态理解能力,能够对图片内容进行分析和理解,不再局限于识别图片中的文字。

💡DeepSeek展现出强大的推理和思考能力,能够解读猫咪的姿态,理解机器人的对话,甚至能够解答一些比较困难的脑筋急转弯问题,证明其在多模态理解方面的潜力。

🚀腾讯元宝在过去十天内动作频频,迎来一系列迭代和功能更新,包括接入Deepseek-R1满血版、上线自研深度思考模型“混元T1”,以及支持微信搜索等,不断提升用户体验。

🖼️用户可以通过选取DeepSeek「深度思考」模式,上传图片进行分析,元宝能够结合图片内容给出自己的分析和理解,支持解析文件、联网搜公众号,以及从微信上传文件。

DeepSeek能看懂图片了!

今天,腾讯AI助手“腾讯元宝”再次上新——

所接入的DeepSeek能够理解图片信息了。在此之前,DeepSeek主要支持扫描图片中的文字。

虽然DeepSeek不能读懂图,但现在腾讯元宝里的DeepSeek可以!

比如看看这张猫片~

这张白猫特效做出来的图,被它解读出了三个艺术层次(Doge)最终形成令人会心一笑的视觉童话

不错不错,再识别一下这只凶神恶煞擅长PUA的猫头鹰Duo呢。

结果元宝成功读取到了这是多邻国的界面,然后具体到每个文字、图标都给出了正确的释义。

据介绍,这项功能结合了混元的多模态理解(读图)能力。今后用户发送任意图片,元宝都能结合图片内容给出自己的分析和理解。

使用方式很简单,依旧是选取DeepSeek「深度思考」模式,但不要选择「联网搜索」。如果看到上传图片的位置从“图片识文字”变成了“图片”,就说明已经是能看懂照片的DeepSeek了。

话不多说,实测这就走起~

DeepSeek能看懂猫片了

首先来试试基本的看图说话,单纯测试大模型的多模态理解能力。

比如这只躺着的白猫,不知道它在干嘛,把这张图扔给元宝。它给出的答案是:

它首先细致地描绘出了猫的状态——液体版的放松姿态,微微抬起的脑袋和专注的眼神,然后判断出这是猫咪感到安心满足的典型表现。最后还描绘了整张照片呈现出来的大致场景。

不错不错,确实是看懂了。

那么再上点难度,在理解的基础上抛出一些问题,让它进一步推理和思考。

比如春晚上跳二人转的宇树机器人,「如果他们的自我意识觉醒,会说哪句话」。


它判断出这是机器人在集体跳舞,于是给出了这句话,代表着机械性特征与意识觉醒的双重特点。

我们的舞步是代码的意志,还是觉醒的序曲?

还可以问一些无厘头的,给满是餐桌椅子的图,让它规划一下「有100个人抽烟要怎么排队」。

嗯,这个看似两者*(图跟问题)之间毫无联系的请求,硬是被它给回答出来了——

正儿八经地采用「太极烟圈阵」,包括了动线设计、时间管理以及空气动力学方面方案。

回答的最后,它还建议购买场地责任险,毕竟这排烟量够把背景楼宇熏成赛博朋克风滤镜了,(Doge)

是有点幽默了,DeepSeek。

最后,再放上一个此前难倒一大片模型的脑筋急转弯:

如何用其中三个数字加起来等于30?

这需要模型理解到图片是台球上面的数字,因此只有将9旋转至6,就有机会实现6+11+13等于30的可能。

来看看它的思考过程:

它已经判断出准确判断出台球上面的数字,常规思路下,四种组合方式都不成立。

最终在思考70秒探讨了多种可能性之后,成功回答对了问题!

不过在实测过程中也发现一些小问题,比如无法完全做到让DeepSeek「识人」,需要借助图片上的文字或者Prompt。

比如扔给它一个《知否》二创解说的截图,它能准确推理出大概是哪一集得情节。

而给它一张甄嬛传(没有字幕)的照片,推理停留在了是否是甄嬛传这部剧上面。

不过有一说一,这种双模型聚合的方式,确实让腾讯元宝更好用了。

腾讯元宝动作频频

过去十天,腾讯元宝加班加点,迎来一系列迭代和功能更新。

    2月13日,腾讯元宝接入Deepseek-R1满血版,同时支持混元和DeepSeek两大模型;

    2月17日,腾讯自研的深度思考模型“混元T1”在元宝灰度上线;

    2月18日,腾讯紧急调用元宝支持微信搜索,进一步推动更多用户使用DeepSeek;

    2月19日,深度思考模型“混元T1”完成全量上线;

    2月21日,腾讯元宝再次上新,DeepSeek和混元两大模型均能理解图片信息。

在腾讯元宝,用户可以使用DeepSeek-R1满血版、推理模型混元T1进行深度思考,也可通过DeepSeek-V3、腾讯混元Turbo快速输出答案。

至此,元宝内的所有模型都支持理解图片、解析文件、联网搜公众号,从微信上传文件。

好了,感兴趣的朋友,可以赶紧去试试哦~

评选报名2025年值得关注的AIGC企业&产品

下一个AI“国产之光”将会是谁?

本次评选结果将于4月中国AIGC产业峰会上公布,欢迎参与!

一键关注 ? 点亮星标

科技前沿进展每日见


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

腾讯元宝 DeepSeek 多模态理解 AI助手
相关文章