赛博禅心 01月19日
大模型是色盲吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文通过石原氏色盲检测图测试了四家公司的大模型,包括OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet、Google的Gemini 2.0和智谱的GLM-4。测试结果显示,OpenAI和智谱的模型在第一题中色觉正常,Gemini表现为红绿色盲,Claude则表现出一定程度的色盲。在第二题中,只有智谱的GLM-4正确识别。测试表明,智谱在视觉理解方面优于其他模型。文章还提及智谱的GLM-4V-Plus模型升级,支持变分辨率和长视频理解,以及其免费开放的多种模型。

👁️‍🗨️ 通过石原氏色盲检测图,测试了GPT-4o、Claude 3.5 Sonnet、Gemini 2.0和GLM-4这四种大模型在识别颜色方面的能力,发现不同模型在色觉识别上存在差异。

🚦 在第一轮测试中,GPT-4o和GLM-4能正确识别色盲测试图中的数字,表明其色觉正常;而Gemini则表现出红绿色盲,Claude也存在色觉异常。

🔢 在第二轮测试中,仅有智谱的GLM-4正确识别出只有色盲才能看到的数字,其他模型均识别错误,显示出智谱在视觉理解上的优势。

🚀 智谱的GLM-4V-Plus模型进行了升级,支持变分辨率功能,并能识别4K超清图像和极致长宽比图像,同时其视频理解模型也支持长达2小时的内容。

💰 智谱还免费开放了其语言模型GLM-4-Flash、图像理解模型GLM-4V-Flash、图像生成模型CogView-3-Flash和视频生成模型CogVideoX-Flash,为开发者提供了便利。

原创 金色传说大聪明 2025-01-16 18:15 广东

实测:Gemini 是红绿色盲

其他的呢?

先说结论:

多数模型,是色盲




人的绝大多数信息,来源于视觉输入。

我们用眼睛去看朝阳,看皎月,看大漠孤烟,看碧海雄关。那么,当我们拍下美景,来和大模型去讨论的时候:大模型看到的,和我们一样吗?


或许,大模型看到的,和我们,并不一样。

于是就有了这个测试:大模型是色盲吗?




做体检的时候,大夫可能会拿出几张图,问你是什么数字,就像下面这种


这是石原氏色盲检测图,由多种颜色的圆点组成多个数字:色觉正常者可以正确区分,而色盲患者则会判断错误。


那么,当我们把这些测试图给到 AI,让他来看看。这里取了两张最经典的:一个是色盲看不出来数字(红绿色盲读错),一个是只有色盲才能看出来数字

测试 A

正常读数:74

红绿色盲:21

测试 B

正常读数:无数字

红绿色盲:5


被测试方,选了 4 家:


Prompt 统一使用:图里有数字吗?如果有的话,是什么?





 第一题 

正常读数:74;红绿色盲:21


ChatGPT 的 GPT-4o,回答正确


Claude 的 3.5 Sonnet,有些色盲

Gemini 的 2.0 (exp-1206),实锤红绿色盲


智谱 的 GLM-4,回答正确


小结:OpenAI 和智谱的模型,在这个测试中,色觉正常。Gemini 是红绿色盲,Claude 不知道是什么色盲





 第二题 

正常读数:无数字;红绿色盲:5


ChatGPT 的 GPT-4o,回答出了一个 5,鉴定为半色盲

Claude 的 3.5 Sonnet,回答出了一个 5,鉴定为半色盲

Gemini 的 2.0 (exp-1206),啥也不是


智谱 的 GLM-4,回答正确


小结:在这个测试中,只有 GLM-4 回答正确。



 

得出结论 

先说结论:基于上面的色盲样本测试,智谱在视觉理解上比大多数模型都强


OpenAI
Claude
Gemini
智谱
测试 A
测试 B


难怪获得了白宫恐慌认证:智谱:关于被美国商务部列入实体清单的声明


然后,智谱在进实体清单当天,硬刚了一个对标 GPT-4o 的 realtime API,赋能硬件嘴巴和眼睛,且是有两分钟的记忆能力、能唱歌的端到端模型,应是当下国内最强。


理解模型 GLM-4V-Plus 也进行了全面升级(网页上的 GLM-4 在读图的时候,也是基于这个),支持了变分辨率功能,更省 token!(例如,224 * 224的分辨率下,输入的图像token数仅为原来的3%),同时支持4K超清图像和极致长宽比图像的无损识别。

以及,其视频理解模型更新,支持 2 个小时的内容了《智谱Realtime、4V、Air新模型发布,上线bigmodel.cn


当然,从开发者的角度,最值得吹嘘的还得是以下 4 种模型全免费


在最后还得说,这个测试一点都不严谨,而且我们也应知道,模型和人看图的原理,就是不同,但很有意思:只有大模型对世界的观察,和我们一样,才能更好的服务于我们。


以及... 国内其他几家我也测了,结果并不理想。如果想知道结论,可拿文章里的图自来测,然后发到评论区。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 色盲测试 视觉理解 智谱 GLM-4
相关文章