不开玩笑,ChatGPT 真的能救命。
最近 Reddit 上一位用户发帖称,他们朋友几人骑着 ATV在一片未标记的森林小路迷路了 5 个小时,尝试了 Google Maps,Polaris,ATV 专用地图应用……结果都没用,因为这些地图只会显示主干道。
后来有人开始求助 ChatGPT:每隔几分钟就把 GPS 坐标发给它,结果 GPT 回复了清晰的指南针指示、道路名称和地形信息,最后顺利引导他们安全回家。
那这样看来,“导航克星”重庆的“8D 魔幻交通”是不是也有救了?
不过在此之前,我们想确认一个问题:ChatGPT 这次成功是“幸存者偏差”吗?比如评论区有不少网友质疑并提出 AI 幻觉的风险。还是说它真的能有效应用于户外导航任务?
在野外导航,AI 能比 Google Maps 更好用?劝你留个心眼
X 博主 Rohan Paul 发帖称,现在已经有很多研究证明,使用大语言模型来进行户外导航,效果甚至比传统地图还要好。
比如,今年 5 月份发表在 Translational Vision Science & Technology 上的一篇论文表明,AI 只通过“看街景照片”就能提供导航帮助。研究者展示了一个多模态的大语言模型能够解读户外场景图片,并回答指路问题。
https://psce.pw/7sb2k2
举个例子,当多模态大语言模型“看”到一张人行街道的照片,被问到“Metro Credit Union在哪儿”时,AI 通过识别图片中的地标和空间关系,可以准确地回答“就在你右手边”。
我们之前也用 o3 玩过 GeoGuessr 看图猜地点的游戏,在禁用提取 EXIF 的情况下,o3 仅凭借对图中细节的推理,就能实现准确的地点辨识判定。
但测评过程中也发现了幻觉问题,比如 AI 会被用户的上下文记忆等信息带跑偏。
针对 AI 识图的幻觉问题,上面的论文也指出,通过设计合适的提示词——比如让模型在不知道答案时回答“我不知道”,能减少“胡说八道”的现象。
另外,发表在 arXiv 的一项研究也指出,通过设计提示词,大语言模型在户外导航中优化多地形环境的路径规划。
整个过程是这样的:
首先编码语义地形成本网格,比如溪流、公园、小径和村庄等场景的数据。然后再结合一些经典的路径规划算法计算出的初始路径描述。
接着,LLM 会评估这些路径是否最优。如果不是,它就会建议调整坐标,或者提供更具体的替代路线,通常能提高66%到87%的效率。
此外,它通过输出详细的路径描述,并结合增强的提示语,避免了模型产生错误的导航信息,从而确保导航结果更可靠。
https://arxiv.org/abs/2503.01236
综合来看,的确有不少研究结果表明,通用的大语言模型可以结合视觉和语言理解,支持一些简单的户外微型导航任务,就像是告诉你该往哪个方向走。
但是,我们也能发现,现阶段的AI技术仍然依赖于大量的训练数据和先前构建的地图数据库。这意味着在一些无人区或者数据不完备的区域,AI可能无法发挥应有的作用,甚至会因为缺乏足够的“地理知识”而作出错误判断。
而且,AI系统的“幻觉”问题仍然是一个不容忽视的风险,特别是在真实世界的复杂环境下,一旦系统误判或偏离真实场景,后果可能非常严重。
所以,玩玩 GeoGuessr 还行,如果真的遇到迷路在森林里这种危险状况,若有网络的话,还是不要过度依赖和完全信任 AI。