PaperAgent 01月19日
像人一样学会记忆,谷歌新架构Titans打破Transformer上下文限制
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google提出新型神经网络架构Titans,引入长期记忆模块,增强处理长序列数据能力,超越多种模型。受人类记忆启发,定义惊讶度并提出改进度量和记忆更新规则,还提出适应性遗忘机制等。在多任务上评估,性能更优。

🎈Titans通过引入长期记忆模块增强处理长序列数据能力

💡受人类记忆启发,定义并改进惊讶度量及记忆更新规则

🚪提出适应性遗忘机制,通过门控控制记忆更新

🧠设计三种Titans架构变体,展示如何整合长期记忆模块

2025-01-16 11:09 湖北

现有的架构,如Hopfield网络、LSTM和Transformer会带来了二次方的时间和内存复杂度,限制了模型处理长序列的能力。

人类的记忆不是单一的过程,而是由短期记忆、工作记忆和长期记忆等不同系统组成,每个系统都有不同的功能和神经结构。

基于此,Google提出一种新型的神经网络架构——Titans,它通过引入长期记忆模块来增强模型在处理长序列数据时的能力,并且能够扩展到超过200万的上下文窗口大小,超越GPT-4、Llama3.1-70B等模型。

受人类记忆中“违反预期的事件更难忘”这一观点的启发,定义了一个模型的惊讶度为其对输入的梯度。梯度越大,输入数据与过去数据的差异越大。提出了一个改进的惊讶度量,将过去惊讶度和瞬间惊讶度结合起来,以更好地处理有限记忆。

基于惊讶度量,提出了一个记忆更新规则,结合了过去惊讶度和瞬间惊讶度,通过这种方式,模型可以更好地管理有限的记忆资源。

遗忘机制

记忆架构

如何整合记忆

提出了Titans架构,包括三种变体:Memory as a Context (MAC)、Memory as a Gate (MAG) 和 Memory as a Layer (MAL)。这些变体展示了如何将长期记忆模块有效地整合到深度学习架构中。

在语言建模、常识推理、基因组学和时间序列任务上评估了Titans架构及其变体的性能。结果表明,Titans在这些任务上比现代循环模型和线性Transformer更有效,并且能够扩展到超过200万的上下文窗口大小,同时在haystack 任务中比基线模型具有更高的准确性,比如:GPT4和Llama3.1 70B等。

https://arxiv.org/pdf/2501.00663Titans: Learning to Memorize at Test Time

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Titans 神经网络架构 长期记忆模块 适应性遗忘
相关文章