IT之家 2024年08月07日
无一大模型及格!北大 / 通研院提出超难基准 LooGLE,专门评估长文本理解生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北大联合北京通用人工智能研究院发布了全新长文本理解能力评估基准LooGLE,包含近800个超长文档,并生成了6千个任务/问题。LooGLE旨在评估大模型对长文本的处理能力、长程依赖建模和理解能力,测试结果显示,包括Claude3-200k、GPT4-32k等在内的商业模型平均准确率仅为40%,开源模型表现更为不佳。LooGLE涵盖多信息检索、时间重排序、计算、理解推理等任务,为长文本理解能力评估提供了新的标准。

🤔 LooGLE包含近800个超长文档,平均近2万字,并生成了6千个不同领域和类别的任务/问题,旨在评估大模型对长文本的处理能力、长程依赖建模和理解能力。

🧐 LooGLE包含7个主要任务类别,涵盖多信息检索、时间重排序、计算、理解推理等,旨在评估LLMs理解短程和长程依赖内容的能力。

📊 实验结果显示,商业模型显著优于开源模型,但即使是商业模型在复杂的长依赖任务中表现也不佳。CoT(思维链)只在长上下文理解方面带来了微小的改进,基于检索的技术在短问答方面表现出明显的优势,通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长上下文理解的提升有限。

🚀 LooGLE为未来开发增强型模型以实现“真正的长上下文理解”提供了新的方向。

🧪 LooGLE数据集仅包含2022年之后发布的文本,尽可能地避免了预训练阶段的数据泄露,考验大模型利用其上下文学习能力来完成任务,而不是依靠记忆事实和知识储备。

🎯 LooGLE 数据集由 7 个主要的任务类别组成,旨在评估 LLMs 理解短程和长程依赖内容的能力。团队设计了 5 种类型的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。

📝 团队组织了近百名标注者手工编制了约 1100 个真实的长依赖问答对,分为 4 类长依赖任务:多信息检索、时间重排序、计算、理解推理。

💪 LooGLE 基准测试主要有这样几个特点:首先,它包含近 800 个最新收集的超长文档。平均近 2 万字(是现有相似数据集长度的 2 倍),并从这些文档中重新生成了 6 千个不同领域和类别的任务 / 问题用于构建 LooGLE。

在长文本理解能力这块,竟然没有一个大模型及格!

北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。

该数据集既能够评估 LLMs 对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。

结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。

比如像 Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型,平均只有 40% 的准确率

而像开源模型表现就更不理想了…...

ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K 平均只有 10% 的准确率。

目前该论文已被 ACL 2024 接收。论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工智能研究院助理教授张牧涵。

LooGLE 基准测试

LooGLE 基准测试主要有这样几个特点:

首先,它包含近 800 个最新收集的超长文档。平均近 2 万字(是现有相似数据集长度的 2 倍),并从这些文档中重新生成了 6 千个不同领域和类别的任务 / 问题用于构建 LooGLE。

目前没有既评估 LLMs 对长文本的处理和记忆,又评估其对文本长程依赖的建模和理解能力的数据集。

LooGLE 的数据集由 7 个主要的任务类别组成,旨在评估 LLMs 理解短程和长程依赖内容的能力。

团队设计了 5 种类型的长期依赖任务,包括理解与推理、计算、时间线重新排序、多重信息检索和摘要。

通过人工标注精心生成了超过 1100 对高质量的长依赖问答对,以满足长依赖性要求。这些问答对经过了严格的交叉验证,从而得到了对大型语言模型(LLMs)长依赖能力的精确评估。

LooGLE 基准数据集仅包含 2022 年之后发布的文本,尽可能地避免了预训练阶段的数据泄露,考验大模型利用其上下文学习能力来完成任务,而不是依靠记忆事实和知识储备。

该基准的文本源自广泛认可的开源文档,包括了 arxiv 论文、维基百科文章以及电影和电视剧本,涉及学术、历史、体育、政治、艺术、赛事、娱乐等领域。

长文理解中长程问答任务生成

在本研究中,团队组织了近百名标注者手工编制了约 1100 个真实的长依赖问答对,分为 4 类长依赖任务:多信息检索、时间重排序、计算、理解推理。

实验分析

为了提供更全面和通用的性能评估,LooGLE 使用基于语义相似性的度量、GPT4 作为判断的度量,以及人类评估作为度量。在 LooGLE 上对 9 种最先进的长文本 LLMs 进行评估(其中包括 OpenAI 和 Anthropic 的商用模型,以及几个主流开源基座模型微调得到的长文本模型,和带有外部记忆模块的检索增强模型),得出了以下关键发现:

▲ 不同 LLM 在 LooGLE 上展现的长文本理解能力

▲ 不同模型在 LooGLE 短程问答上的性能

▲ 不同模型在 LooGLE 短程问答上的性能

▲ 不同上下文窗口对长程问答性能的影响

▲ 不同模型在 4 种不同类型长程问答上的性能

因此,LooGLE 不仅提供了关于长上下文 LLMs 的系统和全面的评估方案,而且为未来开发增强型模型以实现“真正的长上下文理解”提供了启示。

论文地址:

https://arxiv.org/abs/2311.04939

数据地址:

https://huggingface.co/datasets/bigainlco/LooGLE

代码地址:

https://github.com/bigai-nlco/LooGLE

本文来自微信公众号:量子位(ID:QbitAI),作者:LooGLE 团队,原标题《无一大模型及格!北大 / 通研院提出超难基准,专门评估长文本理解生成》

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

长文本理解 LooGLE 大模型 LLMs 评估基准
相关文章