1万tokens是检验长文本的新基准，超过后18款大模型集体失智

上下文扩展至1万tokens，LLM集体“失智”！

且“智商”不是均匀下降，而是在一些节点突然断崖式下跌。

比如Claude Sonnet 4，就是在1000tokens后准确率一路下滑，从90%降到60%。

或者是下降后放缓再下降，比如GPT-4.1和Gemini 2.5 Flash。

最终，当上下文长度来到1万tokens，大家都只剩50%准确率。

这也就意味着，大模型在读同一本书第10页和第100页时的“智商”可能不一样。

并且不同大模型在“读这本书”时突然降智的页数也不同。

GPT-4.1可能读到第10页就“失智”了，Claude兴许能坚持到第100页。

这是Chroma团队的最新研究结论，他们用升级版“大海捞针”（NIAH）测试了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在内的18个开源和闭源的主流大模型。

结果显示，随着输入长度的增加，模型的性能越来越差。

实验还首次系统性地揭示了输入长度对模型性能并非均匀影响，不同模型性能可能在某一tokens长度上准确率发生骤降。

这项工作得到了网友的肯定：

以往人们或许会遇到当输入长度增加时大模型会出现性能不佳的情况，但并没有人深入探究过这个问题。

目前代码已开源，感兴趣的朋友可复现～

1万tokens是个坎儿

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口，随后GPT-4.1也加入到了1M上下文队伍中。

更长的上下文意味着LLM每次调用可以处理更多信息，似乎能生成更合理的输出。

确实，这些模型在“大海捞针”（NIAH）这些基准测试中表现良好。但实际上，现有基准测试有一个局限性是在于它们倾向于把输入长度与任务难度混为一谈。

NIAH本质上是一个简单的检索任务，它是将一个已知事实（“针”）放置在一大段不相关文本（“干草堆”）中，然后要求模型检索它。

这种方法主要评估大模型直接的词汇匹配能力，无法代表更灵活、面向语义的任务。

其他更复杂的任务，例如包含非词汇匹配的NoLiMa和测试文本片段缺失识别的AbsenceBench，已经揭示了模型性能在输入长度增加时出现的显著下降，但没有进行更深入地探讨。

为了解决经典NIAH的局限性，并更好地探究仅输入长度对模型性能的影响，研究人员扩展了标准的NIAH任务。

研究人员基于保持任务复杂度不变，只改变输入长度核心原则，设计了四项对照实验。

先说结论，四项对照实验（针-问题相似度、干扰信息、针-干草堆相似度、干草堆结构实验）共同证明了LLMs的性能会随输入长度增加而显著且非均匀地下降，且这种衰减受输入内容的语义特征、结构等因素影响。

具体表现为：

输入长度是性能衰减的核心变量，无论任务简单与否，模型处理长文本的可靠性都会下降；

语义关联性（如针-问题相似度低、针与干草堆语义融合）会加剧衰减；

干扰信息和文本结构（如逻辑连贯的干草堆）会进一步削弱模型在长上下文任务中的表现；

不同模型对这些因素的敏感程度存在差异，但整体均无法维持稳定性能。

第一项是针-问题相似度实验：验证“针”与“问题”的语义相似度是否会影响模型在长上下文任务中的表现，尤其是输入长度增加时，低相似度是否会加剧性能衰减。

实验选取了保罗・格雷厄姆散文(PG essay)和arXiv论文作为背景数据（干草堆），针对其核心主题设计问题，并为每个问题生成8个与主题匹配且未出现在干草堆中的 “针”，通过5种嵌入模型计算“针-问题”余弦相似度，分为高、低相似度两组。

实验控制任务复杂度和干草堆内容，仅调整输入长度（10²到10⁴tokens）和相似度，以模型回答准确率为指标（由GPT-4.1评估，与人类判断一致性超过99%）。

结果显示，所有模型性能均随输入长度增加而下降，到1万token左右下降最明显，且低相似度组衰减更显著——

高相似度组在10⁴tokens 时准确率约60%-80%，低相似度组降至40%-60%，高性能模型虽在短输入时表现更好，长输入下仍难避免衰减。

这表明，“针-问题”语义相似度是关键影响因素，相似度越低，长输入下模型性能衰减越剧烈，揭示了现有模型处理模糊信息的局限性。

第二项是干扰信息实验：探究当输入长度变化时，与目标信息（针）相关但不匹配的干扰内容对LLMs性能的影响，尤其是干扰项数量和个体差异是否会加剧性能衰减。

研究团队从保罗・格雷厄姆散文和arXiv论文两类干草堆中，选取与问题语义相似度较高的“针”，并手动设计4个干扰项。

实验设置了三种条件：基线（仅含“针”，无干扰项）、单一干扰项（“针”+1条随机位置的干扰项）、多重干扰项（“针”+4条随机分布的干扰项）。

通过控制任务复杂度（仅需检索“针”并回答问题），仅调整输入长度（从10²到10⁴tokens）和干扰项数量，以模型回答的准确率为指标。

结果显示，即使单一干扰项也会导致模型性能低于基线，而加入4条干扰项会进一步加剧性能衰减。

在输入长度为10⁴tokens时，多重干扰项条件下模型准确率比基线低30%-50%。

此外，模型对干扰项的响应存在差异：Claude系列倾向于在不确定时弃权（明确表示无法回答），幻觉率较低；GPT系列则更可能生成自信但错误的答案，受干扰影响更明显；Gemini和Qwen模型的表现波动较大，易受干扰项数量和输入长度的双重影响。

第三项是针-干草堆相似度实验：探究目标信息（针）与背景文本（干草堆）的语义相似度对 LLMs长上下文任务性能的影响。

实验选取保罗・格雷厄姆散文和arXiv论文作为干草堆，针对其核心主题设计问题及8个匹配主题的“针”（确保未出现在干草堆中），通过5种嵌入模型计算“针-干草堆” 余弦相似度并取平均值以保证稳健性。

实验控制任务复杂度，仅调整输入长度（10²到 10⁴tokens）和相似度，以模型回答准确率为指标。

结果显示，针-干草堆相似度对模型性能的影响不统一，不同模型敏感度存在差异，但整体上随着输入长度增加，各相似度条件下的模型性能普遍下降。

第四项是干草堆结构实验：探究背景文本（干草堆）的结构模式对LLMs长上下文任务性能的影响。

实验选取保罗・格雷厄姆散文和arXiv论文作为干草堆，针对其核心主题设计问题及8个匹配主题的“针”（确保未出现在干草堆中），设置连贯结构（文本按原逻辑顺序呈现）和打乱结构（文本顺序随机打乱）两种条件。

实验控制任务复杂度，仅调整输入长度（10² 到 10⁴ tokens）和干草堆结构。

结果显示，多数模型在连贯结构中随输入长度增加性能下降更显著，而打乱结构下性能下降较缓和——

输入长度10⁴tokens 时，连贯结构中部分模型准确率降至30%-40%，打乱结构则维持在50%-60%。

这表明干草堆结构是关键影响因素，现有模型处理复杂逻辑结构的长文本时挑战更大。

团队还设计了重复单词实验，说明即使是最基础的文本复现任务，LLMs 在长上下文下的稳定性也存在严重缺陷，且输入与输出长度的同步增长会加剧这一问题。

这些实验结果共同证明，尽管大型语言模型的上下文窗口不断增长，但其性能并非均匀一致。

基于LLMs在长文本任务上的缺陷，也有人给出了应对策略：给出明确、清晰的指令，并且在收集到足够的信息后保存上下文，添加一个检查点。

Chroma——开源的AI应用数据库

Chroma致力于开发开源软件，由Jeff Huber（左）和Anton Troynikov（右）共同创立。

公司公开发布的同名数据库Chroma是一个开源的AI应用数据库，旨在通过将知识和技能整合为大语言模型可调用的模块，简化LLM应用的构建过程。公司公开发布的同名数据库Chroma是一个开源的AI应用数据库，旨在通过将知识和技能整合为大语言模型可调用的模块，简化LLM应用的构建过程。

团队活跃于LLMs长上下文处理、检索增强生成（RAG）等领域的研究，以解决大模型在实际应用中对长文本信息的记忆、提取和利用效率问题。

目前，Chroma计划推出免费的技术预览，并表示：

我们100%专注于构建有价值的开源软件。

代码地址：https://github.com/chroma-core/context-rot

参考链接：
[1]https://research.trychroma.com/context-rot
[2]https://news.ycombinator.com/item?id=44564248

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题

扫码添加小助手，发送「姓名+公司+职位」申请入群～

进群后，你将直接获得：

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题，请及时与我们联系删除

1万tokens是个坎儿

Chroma——开源的AI应用数据库

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签