快科技资讯 19小时前
媒体实测7款AI数手指:几乎全翻车 仅一款正确 原因其实很简单
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期一项AI产品测试视频显示,大部分AI产品在识别包含6根手指的图片时,均错误地回答为5根手指,仅GPT答对。文章深入剖析了这一现象,指出AI处理图像时,会先将其转化为文字描述,通过“模态对齐”技术让图像与文字在语义空间中靠近。虽然此方法有助于AI理解物体类别,但容易忽略图像中的细节信息,例如将“手”简单理解为“有5根手指”的默认概念。因此,AI数手指的困难并非源于“愚笨”,而是其视觉信息处理方式的固有局限,它更侧重于图片的整体含义而非像素级的精确计数。

💡 AI产品普遍存在“数不清手指”的低级错误,测试显示大部分AI将6根手指的图片识别为5根,仅GPT准确识别。这暴露了当前AI在处理图像细节方面的不足。

🧠 AI的看图方式与人类直观观察不同,它会将图像转化为文字含义,通过“模态对齐”让图像和文字在语义空间中靠近。例如,一张狗的照片会被理解为“至少是一只狗”。

⚠️ 这种处理方式的弊端在于容易遗漏图像中的细节信息。AI可能将“手”默认理解为“有5根手指”,而不会像人类一样仔细计数,导致在数手指这类任务上出错。

⚙️ AI数不清手指并非因为它“愚笨”,而是其视觉信息处理机制的天然短板。它更关注图片所传达的整体意义,而非像素级的精确细节,除非经过专门的训练或插件支持。

🎯 AI在图像识别中更侧重于物体类别和整体语义,而对数量等具体细节的精确把握能力有待提升。未来的AI发展需要在理解整体与关注细节之间找到更好的平衡。

快科技8月16日消息,近日,凤凰科技发布了一则测试7款AI产品的视频。

据视频画面显示,大部分AI产品都犯了同一个低级错误:数不清手指。

视频以一张有6根手指的照片测试,结果大部分AI都“非常自信”的回答5根。

据测试的7款AI产品,结果是豆包、kimi, 腾讯元宝、文小言、通义以及马斯克称之为最强AI——Gork的回答都是5根。

只有GPT的回答是6根。没错!只有GPT答对了,其余全翻车。

那么,AI为何会犯这种看似低级的错误呢?其实,这和AI特殊的看图方式密切相关。

与人类直观地观察图片不同,AI处理图片时,会先将图片转化为文字含义。

例如,给它一张狗的照片,它脑海中浮现的不是具体的影像,而是“至少是一只狗”这样的文字描述。

这一过程有个专业术语叫“模态对齐”。具体而言,AI会借助图片编码器将照片转换为数字向量,同时用“文字编码器”把文字也变成数字向量,然后努力让狗的照片和“狗”这个词在同一个语义空间里“靠近”。

这种处理方式有其优势,它能让AI大致了解图片中的物体类别。但弊端也十分明显,图片中的细节很容易被遗漏。

就像在AI的文字描述里,手就是“有5根手指”,它不会像人类一样认真去逐一计数。

这就好比你跟朋友说“我家有条小狗”,朋友能想象到狗,却很难猜到狗耳朵是竖着还是垂着。

所以,数手指这种对人类轻而易举的事,对AI来说却是与生俱来的短板。

除非为它专门安装一个数手指的插件,否则它可能会一直活在“默认5根”的“快乐世界”里。

总结来说,AI数不清手指并非因为它“愚笨”,而是其看图方式天然地忽略了细节,它关注的是图片所传达的意思,而非具体的像素信息。

对此,你怎么看?

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI识别 图像处理 模态对齐 AI局限 细节识别
相关文章