IT之家 14分钟前
新研究发现 AI 无法读懂模拟时钟,还不能告诉你某天是周几
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

最新研究表明,尽管人工智能在编程、图像生成和文本创作方面表现出色,但在识别时钟和计算日期等基本任务上却存在明显缺陷。研究人员通过测试多个大型语言模型,发现它们在判断时钟时间和推算日期星期上的准确率均未超过一半。这一发现揭示了AI在空间推理和逻辑推理方面的不足,强调了改进训练数据和整合推理能力的重要性,尤其是在处理对时间敏感的现实应用场景时。

⏰AI在识别时钟时间方面表现不佳,正确率仅为38.7%。这不仅需要识别指针是否重叠,还要理解角度和分辨不同风格的表盘,涉及复杂的空间推理。

📅AI在判断日历日期星期方面准确率更低,只有26.3%。AI依赖从训练数据中学到的模式来预测答案,而不是执行算法,因此在面对闰年或复杂的日历规则时表现较差。

⚠️研究揭示,AI的推理过程缺乏一致性,不基于固定规则。即使AI了解某些概念(如闰年),也无法将其正确应用到具体的视觉判断中。

📚研究强调了两个改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视AI如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。

IT之家 5 月 17 日消息,根据外媒 LiveScience 今日报道,有些人类能轻松完成的任务,AI 却无法胜任。譬如,AI 能编程、画出逼真的图像、生成接近人类语气的文本,甚至在部分考试中取得不错成绩,但在日常生活中最基础的“看钟”“算日子”这类事情上,却频繁出错 —— 要么读不准指针位置,要么算不出星期几

研究人员在 2025 年“国际学习表征会议”( ICLR )上介绍了这项发现,有关的论文已经在 arXiv 上发布,目前尚未通过同行评审。

爱丁堡大学研究员、论文作者 Rohit Saxena 表示:“人类从小就能掌握时间与日历概念,而 AI 在这方面的不足,是一个值得警惕的信号。”他指出,若要将 AI 应用于现实生活中对时间敏感的场景,比如排班、自动化流程或辅助技术,这类基本能力的缺陷必须解决。

研究团队向多个具备图文处理能力大语言模型的输入了一组专门制作的时钟与日历图像,受测模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。测试结果显示,这些模型在判断时钟时间或推算日期星期的任务上,正确率都未超过一半。

Saxena 表示:“过去的 AI 训练依赖大量带标签的例子,而读时钟需要的是空间推理。模型不仅要识别指针是否重叠,还要理解角度、分辨各种风格的表盘,比如罗马数字或艺术化设计。这远比单纯识别‘这是一个时钟’更复杂。”

日历问题同样难住了 AI。例如在“每年第 153 天是星期几”这类问题上,错误率依然居高不下。研究显示,AI 读时钟的正确率仅为 38.7%,判断日历的准确率更低,只有 26.3%

Saxena 解释道:“对传统计算机来说,算术轻而易举,但对大模型而言则不然。AI 并不执行算法,而是依靠从训练数据中学到的模式来预测答案。”他指出,虽然 AI 有时能答对问题,但其推理过程缺乏一致性,也不基于固定规则,这正是研究所揭示的差距。

研究还揭示了另一个问题,即当 AI 的训练样本缺乏某类现象时,比如闰年或复杂的日历规则,其表现往往更差。Saxena 表示:“即使模型了解‘闰年’这一概念,也不代表它们能将这个知识正确应用到具体的视觉判断中。”

IT之家从报道中获悉,研究强调了两个方面的改进方向:一是训练数据应包含更多具有代表性的示例;二是应重新审视 AI 如何整合逻辑推理与空间感知,尤其是在处理不常遇到的任务时。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 图像识别 时间推理 日历计算
相关文章