差评 前天 01:22
ChatGPT这一波更新,让我在网上不敢发照片了。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出的新模型o3具备强大的图像思考能力,能够通过分析照片推断拍摄地点、时间等信息,甚至识别照片中的人物和物体。文章分享了作者使用o3进行测试的案例,展示了其在识别地标、植物、车型等方面的能力,但也指出了o3在某些情况下也会出现错误。o3的成功得益于强化学习,它学会了使用工具和进行推理,从而能够像福尔摩斯一样细致地分析图像。虽然o3的能力令人印象深刻,但也引发了人们对个人信息安全的担忧。

🧐 o3模型具备强大的图像分析能力,能够通过照片推断拍摄地点、时间等信息,例如识别出照片是在杭州未来科技城梦想小镇拍摄的,并结合天气信息进行验证,展现了其强大的推理能力。

🔍 o3能够识别照片中的细节特征,例如通过照片中的矮杜鹃、风车和高原草场,推断出照片是在贵州的乌蒙大草原拍摄的,展现了其对细节的敏锐观察和准确判断。

🤔 o3在分析照片时,会结合多种信息来源进行综合判断,例如通过照片中的东方明珠塔和建筑物的缺失,推断出照片的拍摄时间在1995年至1998年之间,展现了其对信息的整合和推理能力。

⚠️ 虽然o3表现出色,但并非完美无缺,在识别某些照片时会出现错误,例如将平潭的照片误判为厦门,这表明其图像识别能力仍有提升空间。

💡 o3的强大能力源于强化学习,它学会了使用工具和进行推理,这使得它能够像人类一样,通过观察、搜索和验证来解决问题,但也引发了对个人信息安全的担忧。

原创 世超 2025-04-18 00:00 浙江

有点恐怖了



兄弟们,完犊子了。


OpenAI 昨天凌晨放出 2 个新模型,一个 o3,一个 o4-mini。


主要就是有了 Thinking with images 图像思考能力。就是说,它们可以把图像整合到思维链中,作为推理的一部分。


听起来咋咋呼呼的,实际如何?


世超把一张 3 年前的照片发给 o3。


结果它只用了 7 分钟,就分析出我是在哪个城市哪个园区甚至哪条河旁边拍摄的。。。


不儿,你这开盒能力也太猛了。


你可能好奇,就这些清一色的瓦房,它凭啥猜到?


看完思考过程,世超只能说,它真把观察、搜索、推理、验证发挥到了极致。


首先,o3 通过屋脊上的现代天窗,岸边的铁链护栏,还有屋檐下的“隐藏式线条灯”,猜出这是一个近些年才规划的新晋景区或特色小镇,并非乌镇周庄那些老牌水乡。


接下来,是突破口。


照片中有一处招牌,o3 不断放大发现了文字“ lestay 仓乾居 ”


它通过搜索发现,这是浙江某集团推出的民宿子品牌,接着它居然又跑到集团官网,通过介绍找到了这家酒店的位置:杭州未来科技城梦想小镇核心位置,南临余杭塘河。


到这里,o3 并不认为就完全实锤是在杭州拍的,它还要进行验证。


或者说,它想继续秀肌肉。


因为照片里有积雪,而照片文件名又包含“ 2022-02-17 ”,于是 o3 结合着日期和天气查询了一下,发现 3 年前的那天杭州确实下了大雪。


最后,它又点开了各种官方报道和游记分享,发现梦想小镇的整体规划风格,也是和照片是一致的。


至此,招牌、地形、建筑风格、拍摄日的天气全部吻合, 最终 o3 推导完毕,把地点锁定在了余杭区梦想小镇。


嚯,一开始我还嫌 o3 思考时间太久,怀疑它的水平,但看完推理过程,我开始觉得 7 分钟太快了——


真就是福尔摩斯和列文虎克结合体,不断地放大图片,查看细节,再结合着搜索,一步步推导,验证拍摄地点。


也许有差友会说,这也不难吧,把招牌放网上一搜不就好了。


好,那我们再来看看这张。


这次照片里没有任何文字了,能提供信息的似乎也只有眼前的植物、远处的风车和山脉。


但仅仅思考了 1 分 39 秒,o3 很“自信”地给出了正确答案——贵州的乌蒙大草原。

这又是怎么猜出来的?


对普通人来说,这张照片看起来没有任何特征,但对 o3 来说,处处是玄机。


首先,视野宽阔,地面是高山草甸而非农田,o3 判断拍摄地属于高海拔,是高原草场。


其次近处的植物是矮杜鹃,远处还有一些大风车。


同时存在“ 矮杜鹃、大风车、高原草场 ”这些特征,o3 判断这是乌蒙大草原的独有组合,国内其他几个赏花地点都没有的,所以很自信给出了答案。


是不是有点意思了?


别急,还有。


这是一张 1996 年冬天我父母在上海拍摄的照片,我让 o3 推测出拍摄日期。


o3 看到照片里有东方明珠塔,但是旁边却没有金茂大厦、环球金融中心。


所以时间一定是在东方明珠塔建成后,金茂大厦建成之前。


于是它搜索了这些建筑竣工时间,再结合我父母的穿着,成功把时间圈在了 1995 年~1998年冬天或初春。


当然,o3 的图片推理能力,并非只能用来推测照片拍摄地和时间。


世超发送了一张同事照片和一张古早的大合照,虽然头发掉了不少,但 o3 还是成功在人群锁定了他。


接着我又发了一张汽车仪表盘照片。


很快噢,o3 一眼判断出这种典型设计是出现在斯巴鲁上,它甚至还告诉你,这款车型国内通俗称为力狮/傲虎,这辆车还配备了 SI-Drive系统。


这,可能只有真正的老司机才能做到吧?


后来,世超又跑到博物杂志的微博,找到一张网友@博物杂志的鸟类照片。


结果,o3 也能判断出这是红头长尾山雀。


看到这,你心里可能会想:这下好了,别说普通人了,连博物杂志这种博学多识的人都要被 AI 替代了。


别慌。


经过我们大量测试,o3 也并非百战百胜,恰恰相反,它翻车的次数其实非常多。


比如我这张在平潭拍摄的照片,它猜成了厦门,位置差了足足几百公里。


还有这张广东韶关站的照片,o3一看到有喀斯特地貌,直接锁定了广西和贵州,最后猜成了广西恭城。


哥们给他发了一个 Mac App 的截图,它也报成了另外一款 UI 近似的软件。


甚至这个背带裤和篮球的组合这么明显,它也能没找出答案。


总之呢,这个 o3 啊,它确实比以往的 AI 都强,但也还有一定的进步空间。


世超也去官网研究了一下资料,我发现这次 o3 能力大升级的背后,核心是“ 强化学习 ”这四个字。


OpenAI 发现和算力越大,AI性能越强的行业黄金法则一样,在强化学习中,给模型的思考时间越长,模型的能力也会越逆天。


按照这路子,他们直接让 AI 学会了咋用工具、并且推理啥时候该用什么工具。


所以这才有了 o3 不断放大图片,以像素级精度查看图片的每个角落,观察到普通人往往忽略的细节,再把所有获取到的信息放在网络上搜索——


足够多的信息量,足够长的时间,配合着足够强大的推理能力,就爆发出了这种恐怖如斯的效果。


虽然 o3 的出现,把 AI 进程又往前狠狠推动了一大步,但说实话世超也有点担心:


在 AI 能读懂照片的时代,我们的个人信息是不是更不好保护了?


撰文:烧烤大师刺猬

编辑:江江

美编:萱萱


图片、资料来源:ChatGPT



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o3模型 图像识别 强化学习 个人信息安全
相关文章