PaperWeekly 2024年12月27日
长文本+o1?评估LLM在真实世界长文本多任务中的深度理解与推理能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学和智谱团队推出了LongBench v2,一个评估大模型在长文本多任务中深度理解和推理能力的基准测试。该基准测试包含更长的文本长度(8k-2M词),更高的难度,涵盖六个主要任务类别(单文档问答、多文档问答等),并具有更高的可靠性。LongBench v2的数据收集流程包括文档收集、数据标注、自动审核、人工审核和数据修订等步骤。评估结果表明,即使是目前最先进的模型,在LongBench v2上仍然面临巨大挑战,这突显了提升模型长文本理解和推理能力的重要性。

📏LongBench v2 文本长度范围从 8k 到 2M 个词,大多数文本长度小于 128k,相较于现有基准测试,文本长度更长。

🤔包含503个四选一选择题,难度极高,人类专家在15分钟内平均正确率仅为53.7%,突显了其评估模型深度理解和推理能力的挑战性。

🗂️涵盖六个主要任务类别,包括单文档问答、多文档问答、长文本语境学习、长对话历史理解、代码仓库理解和长结构化数据理解,共计20个子任务,覆盖各种现实场景。

✅所有问题均采用多项选择题形式,并经过严格的人工标注和审核,确保数据高质量和评估的可靠性。

让你更懂AI的 2024-12-27 12:31 北京

清华大学和智谱的研究团队推出了 LongBench 的第二代——LongBench v2。

近年来,长文本大语言模型的研究取得了显著进展,模型的上下文窗口长度已经从最初的 8k 扩展到 128k 甚至 1M 个 tokens。然而,一个关键的问题仍然存在:这些模型是否真正理解了它们所处理的长文本? 换句话说,它们是否能够基于长文本中的信息进行深入的理解、学习和推理?

这样的长文本复杂推理与问答场景其实相当普遍:例如,在长篇小说中,正确理解人物关系的微妙变化,抓住隐晦的线索,推断出人物行为背后的动机和情感变化;在法律文书的分析中,结合上下文推导出合规性问题、判断潜在的法律风险,并提出合理的法律建议;在学术论文中,整合多篇文献的结论,发现不同研究之间的矛盾与关联,从而提出新的研究方向或假设;在代码库中,根据长代码库的上下文以及跨文件之间的链接回答关于功能实现或代码错误的问题,等等。

为了回答这个问题,并推动长文本模型在深度理解与推理上的进步,清华大学和智谱的研究团队推出了 LongBench 的第二代——LongBench v2,一个专为评估大模型在真实世界长文本多任务中的深度理解和推理能力而设计的基准测试。

我们相信 LongBench v2 将推动探索 scaling inference-time compute(例如 o1 模型)如何帮助解决长文本场景中的深度理解和推理问题。

项目主页:

https://longbench2.github.io

论文链接:

https://arxiv.org/abs/2412.15204

数据与代码链接:

https://github.com/THUDM/LongBench



LongBench v2 的特色

相比于现有的长文本理解基准测试,LongBench v2 具有以下几个显著特点:



数据收集流程

为了确保数据的质量和难度,LongBench v2 采用了严格的数据收集流程,主要包括以下几个步骤:

数据收集总共花费约 10 万元,并持续了近三个月。研究团队对其中 70 条数据进行了抽查,发现 68 / 70 条数据答案完全准确,67 / 70 条数据是 Google-proofed(即 15 分钟内无法通过互联网检索得到答案)。



数据统计

下表展示了 LongBench v2 中的 6 大类任务和 20 小类任务,以及各任务子类的数据量、数据长度中位数、人类专家回答正确率和回答时间中位数。

数据根据难度分为两类:如果人类专家无法在 10 分钟内正确回答,且在自动审核阶段不超过 1 / 3 的模型能够正确回答,则该数据归类为 “hard”,该类数据共有 311 条;其余 192 条数据归为 “easy”。根据文本长度,数据被分为 “short”(<32k)、“medium”(32k-128k)和“long”(>128k)三类,分别含有 180、210 和 108 条数据。



评估结果

研究团队使用 LongBench v2 评估了 10 个开源 LLMs 和 6 个闭源 LLMs。评估中考虑两种场景:zero-shot 与 zero-shot+CoT(即先让模型输出 chain-of-thought,再让模型输出所选答案)。灰色的单元格中展示的是在 zero-shot+CoT 下的评测结果。

评估结果表明,LongBench v2 对当前的长文本大模型来说是一个巨大的挑战,即使是表现最好的模型,在直接输出答案的情况下,也仅取得了 50.1% 的准确率,而引入了更长推理链的 o1-preview 模型则取得了 57.7% 的准确率,超过了人类专家 4%。

1. Scaling Inference-Time Compute 的重要性

评估结果中一个非常重要的发现是,通过扩展推理时间计算(Scaling Inference-Time Compute),可以显著提升模型在 LongBench v2 上的表现。例如,o1-preview 模型相比于 GPT-4o,通过集成更多推理步骤,在多文档问答、长文本语境学习和代码仓库理解等任务上取得了显著的提升。

这表明,LongBench v2 对当前模型的推理能力提出了更高的要求,而增加推理时间的思考和推理似乎是解决此类长文本推理挑战的一个自然且关键的步骤。

2. RAG + Long-context实验

实验发现,Qwen2.5 和 GLM-4-Plus 两个模型在检索块数量超过一定阈值(32k tokens,约 64 个 512 长度的块)后,性能并没有显著提升,甚至出现下降的情况。

这表明简单地增加检索到的信息量并不总能带来性能的提升。相比之下,GPT-4o 能够有效利用更长的检索上下文,其最佳 RAG 性能出现在 128k 检索长度时。

总结来说,在面对需要深度理解和推理的长文本问答任务时,RAG的作用有限,特别是当检索块数量超过一定阈值后。模型需要具备更强的推理能力,而不仅仅是依赖检索到的信息,才能有效处理 LongBench v2 中的挑战性问题。

这也暗示了未来的研究方向也需要更多地关注如何提升模型自身的长文本理解和推理能力,而不仅仅是依赖外部检索。

我们期待 LongBench v2 能够推动长文本理解和推理技术的发展。欢迎阅读我们的论文,使用我们的数据并了解更多!


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



?


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

·

·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LongBench v2 长文本 大语言模型 基准测试 深度理解
相关文章