原创 孔某人 2025-04-04 12:11 北京
目前LLM的一个系统性弱点。
本文没有量化的评测数据,只是总结不少人观察到的相关现象。
1、LLM对于时间的理解偏弱
即使只考虑目前前沿的LLM模型,我们也能发现它们对时间要求的遵从能力明显弱于其他方面。即使是ODR(OpenAI DeepResearch,使用了o3模型)这样的顶级模型的产品,如果在要求中包含对于素材选择时间方面的限制,也经常会出现不能够完全遵守要求的情况。例如“只采纳2025年及之后的材料”这样的限制。
当然可以猜测说ODR的RFT数据中可能缺少对于时间筛选方面的训练任务,但即使完全没有这样的任务,仅凭o3自己的能力泛化似乎也应该不至于这么弱才对。
不少人反馈,LLM不能够正确理解“最近”、“近期”这样的词。虽然我也相信说post training阶段大概率并没有在这方面的针对性强化,但LLM默认泛化出的效果如此之差是明显奇怪的。当然这里说的都是对于前沿模型。
2、机理猜测
虽然我还没有做更多量化的测试,但我目前相信LLM在时间相关的理解上明显弱于人类,这目前应该是一种系统性缺陷。那么就值得讨论一下到底是为什么会有这样的系统性弱点。
首先对于人类和动物来说,时间顺序、情景记忆(episodic memory)、因果推断和反事实推理等都是重要的功能,从神经科学角度上也发现不少脑区或部分在这方面有着重要的功能。例如:海马体及内侧颞叶、前额叶皮质、顶叶皮层、内嗅皮质等。而且还能发现一些神经元可以提供时间相关的特征信号给其他区域,用来更好地建立对于时间相关的相关关系。
还有一方面是,对于动物来说,它们对于时间的经历是有明显的先后顺序的,时间流逝的背景非常的显著,大脑对于各种信息和相关性的处理是在大时间尺度上的一个小范围内进行的,而且有着足够的处理时间。
而对于LLM来说,大部分信息都是混在一起进行学习的,特别是在时间分布上大多是完全混合均匀分布的。在大部分训练任务上,LLM的目标都是更好地预测下文的内容,而不是在时间上做更准确的判断。所以LLM在完成当前句子的方面特别强,而且也有着特别大的惯性。(有研究显示当LLM模型被prompt hacking突破时,在输出有问题的词之后内部其实就已经能够“意识到”违背对齐的目标,但依旧会把当前句子生成完才开始找补。)
以及在LLM的模型结构上,也没有对于时间和因果性建模的特化模块,在这方面没有模型先验bias。
缺乏模型先验bias,也没有在训练中进行侧重学习,所以LLM在时间方面的表现不如人类似乎就相对自然了。
那么直接的改进思路似乎就是从这两者切入就好。
A、相关文献
本节文献是在本文完成之后,补充调研得到的,我没有研究其内容,仅供参考。
TRAM: Benchmarking Temporal Reasoning for Large Language Models
https://openreview.net/forum?id=EJvFFedM2I
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models
https://arxiv.org/abs/2502.11425
Temporally Consistent Factuality Probing for Large Language Models
https://aclanthology.org/2024.emnlp-main.887.pdf
B、结语
本文没有提供太多数据,但我对于这个现象的存在是相信的。
希望能给学界和模型层的团队提供一些启发。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.4.4 首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/1891456326376338878