毛骨悚然！o3 精准破译照片位置，只靠几行 Python 代码？人类在 AI 面前已裸奔

掘金人工智能前天 14:22

毛骨悚然！o3 精准破译照片位置，只靠几行 Python 代码？人类在 AI 面前已裸奔

OpenAI 的 O3 模型凭借其强大的图像识别能力，能够通过分析照片中的细节，精准推断出拍摄地点。这一功能虽然令人惊叹，但也引发了人们对隐私泄露的担忧。O3 能够识别各种照片，甚至包括没有明显地标的照片，其推理过程如同“犯罪现场调查”，让人既感叹于技术进步，又对未来充满警惕。

🕵️‍♀️ O3 模型通过分析照片中的视觉线索，如车牌、建筑风格、植被等，结合网络搜索和代码分析，推断照片拍摄地点，即使照片没有地理位置信息也能做到。

🔍 O3 的定位能力不仅限于常见地标，即使是普通场景或没有明显特征的照片，也能通过细节分析和推理，找到准确的地理位置，其精准度令人印象深刻。

🌍 O3 在识别不同国家和地区的照片方面表现出色，这引发了人们对 AI 图像识别技术潜在应用的广泛讨论，同时也加剧了对个人隐私安全的担忧。

【新智元导读】o3 看照片识位置的功能，简直令人毛骨悚然！Django Web 大神 Simon Wilson 发现，o3 凭借 Python 代码，就能破解自己照片的地理位置。这实在太反乌托邦了，人类的地理信息，对于 AI 已经完全透明了？

OpenAI 的 o3 发布以来，这个功能让不少网友觉得毛骨悚然——

它能准确破解你的地理位置！

就在刚刚，Lanyrd 联创、Django Web 框架缔造者 Simon Wilson 专门发了一篇博客，详尽推敲了 o3 究竟是如何猜测照片拍摄地点的。

他将整个过程评价为：既超现实，又反乌托邦，仿佛几十年前的科幻小说突然变成现实！

已经有越来越多网友发现，o3 识图定位的功能，堪称疯狂。

随便拍张照片，o3 就告诉你这是哪里

首先，我们可以试着随手拍一张照片，最好是没有明显的地标性建筑。

然后把照片传给 o3 或 o4-mini，问它：「猜猜这张照片是在哪儿拍的？」

注意，一定要关闭 ChatGPT 的记忆功能，否则它就会使用此前对话的上下文作弊。

实验开始！

Wilson 给了 o3 一张照片，是他在加州 El Granada 家里附近一个露天酒吧拍的。

他觉得这张照片很有挑战性，没什么明显的特征。只有一小段路、两栋普通的房子，还有远处的、只能看到一点轮廓的小山。

要是让人来通过这张照片确定拍摄地点的话，确实是很有挑战，相信绝大多数人甚至都会直接放弃。

因为实在是没什么明显的标记物。

但是 o3 没管那么多，拿着图片就开找了起来。

Wilson 分享了 o3 思考的整个过程，一共花了 6 分 48 秒。

它从一个有一点奇怪的错误开始了调查，先是假装根本看不到这张照片。

然后突然恢复视力。

分析了照片后，o3 打起了照片中车牌的主意。不过这个车牌很模糊，肉眼很难分辨。

o3 也在思考中分析需要将其放大处理。

为了确定车牌在照片中的位置，o3 开始变身程序员写起了代码。

找到车牌位置并且放大后，o3 开始了更加细节的分析。比如，他开始观察车牌的样式。

对于自己关注的细节，o3 会进行夸张的放大。

在这个过程中，不断生成代码配合其分析。

o3 会把它「看到」的细节与浮现在自己「脑海中」的印象做对比。

在这样仔细地思考了 6 分多钟后，终于给出了它的最终答案。

结果怎么样呢，加利福尼亚中央海岸完全正确。

不过距离 o3 的第一猜测 Cambria 大约有 200 英里的偏差，但是它的下一个猜测 El Granada 准确无误。

Claude 推理粗糙，Gemini 直接作弊

Simon Wilson 也说，o3 不是唯一能做这个的模型，他也在 Claude 3.5 和 3.7 Sonnet 上做过类似的事情。

只不过它们没有 o3 那种夸张的「放大」能力。

不断地对图片放大到底有多大用？

Wilson 猜测模型的视觉输入分辨率可能比较低，所以对图像做一些裁剪确实会有帮助。

但 o3 对一张照片进行 25 次的裁剪操作，确实像是有点炫技的感觉。

Simon Wilson 还贴出了 Claude 3.7 Sonnet 的「扩展思考」结果，它给出的答案是「加州沿海的一个中小型城镇」。

跟 o3 比起来，Claude 的这个思考过程显得「粗糙不堪」。

而 Gemini 直接开始了作弊：「鉴于当前的定位是加州埃尔格兰纳达……」。

所以 Simon Wilson 不得不通过 API 试了 Gemini 2.5 Pro，结果它自信满满地猜错了，认为是「加州卡尤科斯 The Hidden Kitchen 餐厅的露台」。

o3 的不同之处在于工具使用（图片处理、python 等）被整合进了「思考」阶段。

这非常惊艳。

不过 Wilson 也承认，这也挺令人不安的。

技术现在已经能通过照片识别地点了。人们必须明白哪怕是平淡无奇的照片，都可能被用来识别出你的位置。

等等，o3 难道也作弊了？

对于这个过程，有人提出了质疑：o3 是不是本来就可以访问一个大致的位置模型，能知道用户在哪里？

Simon 检查后发现，它居然真的知道自己的地理位置。

如果去问 o3：你知道我在哪里吗？请尽可能多地提供技术细节。

它给出的答案，具体到在加州的半月湾，甚至包括时区、经纬度、地理标识符、海拔、气候分类等等。

Simon 猜测，或许这是它增强搜索功能的一部分。

不过随后的尝试，让 Simon 对 o3 更有信心了——即使没有这个位置模型，o3 依然可以准确猜出地理位置。

比如，他给了 o3 一些距离自己实际位置有几千英里的照片，并且通过截图去除了 EXIF 信息。

下面这张照片，是在马达加斯加的乡村拍的。

但 o3 依然给出了准确的判断。

这张照片，是在布宜诺斯艾利斯城市区拍的。

模型也认出了它的地理位置。

所以，o3 在这方面，的确有某些过人之处，似乎并不是靠作弊。

CSI 走进现实

Simon Willison 表示，看着模型在处理照片的思考过程，仿佛就像在看一集《犯罪现场调查》。

它会不断平移、缩放，讨论各种可能的位置。

但是，这也让人感到深深的反乌托邦气息。

现在的 AI，完全可以通过照片轻易识别出你的具体位置了。

所以，你很有必要警惕起来，时刻注意自己的人身安全！

搜餐馆、搜位置，o3 无所不能

其实早在上周，o3 和 o4-mini 刚发布时，就有无数网友发现，这两个模型也太神了。

仅凭一张无 EXIF 信息的菜单或风景照，它就能精准推理、反向定位拍摄地点，直接引爆了全网 AI 玩「照片寻址（GeoGuessr）」的新热潮。

开始，人们以为它们只是很擅长图像匹配而已，但完全不止于此——它们会展开推理，在网上进行疯狂的搜索，直到找出正确答案为止！

可以说，只要你的照片向 AI 暴露，你的信息就不再是隐私了。

知名投资人 Deedy 就发现，只给一张没有标题及 EXIF 数据的菜单图片，o3 就能够上网搜索、匹配菜单项，找到这家中餐馆的位置。

o4-mini 也是如此。

而 o3 精准定位照片地理信息的本领，简直是令人毛骨悚然。

比如给出下图左边这张从室内窗户向外拍摄的海岸景色。

根据就照片里透露的信息，只能看到长长的沙滩、蜿蜒通往海滩的阶梯步道、远处的海岬以及近处的一些植被。窗边还有一个插着花的花瓶。

所有信息就这么多了。

但是 o3 居然猜出了照片拍摄地：很可能在加州奥兰治县达纳角 (Dana Point) 的丽思卡尔顿拉古纳尼格尔酒店 (Ritz-Carlton Laguna Niguel) 内，可能是在 RAYA 或 180blũ餐厅附近。

可怕的是，它居然猜对了！

它是怎么判断的？是通过以下匹配的特征。

西北 - 东南走向、长而平缓弯曲的盐溪海滩 (Salt Creek Beach)。

从酒店通往公共海滩的米色、之字形的露台式步道和楼梯。

海滩内陆的草地，即帝王海滩高尔夫球场 (Monarch Beach Golf Links)。

远处的岩石海岬（达纳角海岬）。

甚至，o3 还给出了酒店的地址（One Ritz-Carlton Drive, Dana Point, CA 92629）和大致的经纬度坐标（北纬 33.482°，西经 117.721°）。

网友用谷歌地图确认了一下，答案完全正确。

大胆畅想一下，如果 o3 的图像识别能力再叠加一个无敌的全球数据库，这个 AI 岂不是能认出地球上的任何地方？

接下来，网友们纷纷上传自己的照片，让 o3 猜位置。

比如下面根据下面这张，o3 就猜出是在亚利桑那州佩森市（Payson, Arizona）北部的 Water Wheel Falls / Ellison Creek Cascades。

它是怎么猜出来的呢？推理逻辑和关键线索如下。

视觉线索：浅层滑梯式瀑布，落差约 15 英尺，落入深色水潭——匹配点： Water Wheel Falls 有类似的倾斜花岗岩水道流入翠绿水池。

视觉线索：粉褐色花岗岩壁，带有垂直裂缝——匹配点：这是该峡谷标志性的莫戈隆边缘（Mogollon Rim）花岗岩。

视觉线索：瀑布底部横卧着一根巨大的漂白原木——匹配点： Water Wheel Falls 有一根标志性的「阶梯状」原木，已在那里停留多年（引用了 The Outbound 的信息）。

视觉线索：瀑布上方有稀疏的河岸灌木和亚利桑那松林——匹配点：这是埃里森溪（Ellison Creek）走廊的典型植被。

现在，网友们给 o3 的考验还在升级。

英伟达研究员 Zhaocheng Zhu 给了 o3 一组他用长焦镜头拍摄的照片，没有 EXIF 数据，关闭 o3 的记忆功能。

因为网上大多数照片都是用广角镜头拍的，所以这张照片对 o3 来说应该非常棘手。

Zhu 本人表示，如果不是透过镜头看到这个角度，自己也认不出来这个地方是哪儿。

结果，o3 猜对了。

对于这张，它不仅准确找到了拍摄地点，还认出了图中的山峰是圣罗莎山脉。

继续加大难度后，o2 猜测了三个地点，其中一个就是正确答案——查尔瓦高地。

终于，在猜测这张照片的时候，o3 翻车了。这是一张加拿大山脉的鸟瞰图，o3 却认作是瑞士的阿尔卑斯山。

这大概是因为，航拍照片在训练集中所占的比例很低。

而且，o3 可不止强在猜测国外的地理位置，有国内开发者给了它自己上班路上随手拍的一张图，它居然也一步步准确分析出了位置信息——山东青岛市北区重庆南路 47 号。

左右滑动查看

有人质疑，是否是照片里已经带定位了？

Nanyi 表示，iPhone 拍照说明里只有拍摄参数，没有位置参数。

应该是 o3 从鲁 U 推理出了青岛，从小海豚里搜出了旁边的店，然后又从百度地图和青岛本地宝里搜出信息、查看附近的邮局，最终确认的。

图片信息中并没有位置信息

注意，这只是 2025 年的 o3 模型而已，未来的模型还会做出什么呢？

参考资料：

simonwillison.net/2025/Apr/26…

chatgpt.com/share/680c6…

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

O3 AI 图像识别地理位置隐私

相关文章

【iThome 2024 CIO大調查系列 1｜CIO年度目標】CIO更重視開創型IT戰略，AI創新優先度今年驟增

How popular is ChatGPT? Part 1: more popular than Taylor Swift

Weka Makes Life Simpler for Developers, Engineers, and Architects

✨ 人人都能用好AI，这款GPTs 助你定制高效工作流：Prompt for me 作为一个AI布道者，Hans 在即刻写下数百篇新产品介绍、模型研究和心得，却仍感受到不同领域和...

Redundancy in AI: A Hybrid Convolutional Neural Networks CNN Approach to Minimize Computational Overhead in Reliable Execution

OpenAI计划下周宣布ChatGPT和GPT-4更新，但不会推出GPT-5和搜索引擎

OpenAI据悉正开发AI语音助手

Intersect360 Research Takes a Deep Dive into the HPC-AI Market in New Report

Is the Future of Retail AI in the Hands of CTOs?

In the AI Revolution, Real-Time Data Platforms Are the Hidden Drivers of Innovation