最新Loong LLM多文档问答评测：GPT-4o只排第二，垫底的竟是它？

2024-06-30 19:25 湖北

? Loong一个新颖的长上下文基准测试，通过扩展多文档问题回答（QA）与现实场景对齐，从Spotlight定位、比较、聚类和推理链的角度引入了新的评估任务，总体得分排序：

Gemini-Pro1.5 (1000K)

GPT-4o (128K)

Claude3.5-Sonnet (200K)

Claude3-Haiku (200K)

Qwen2-72B-Instruct (128K)

GLM4-9B-Chat (1000K)

Kimi-Chat (200k)

四项评估任务的总体结果。对于每项任务，左侧的指标代表平均分（0~100），而右侧的代表完美率（0~1）。

LLM在不同长度设置的四项评估任务上的性能。对于每项任务，左侧的指标代表平均分（0~100），而右侧的指标代表完美率（0~1）。

Loong中四项评估任务的展示（... 标记第 i 个文档的内容）。a) Spotlight定位：定位证据。b) 比较：定位并比较证据。c) 聚类：定位并把证据聚类成组。d) 推理链：定位并沿着逻辑链进行推理

长上下文大模型RAG or Not？

尝试将RAG模块集成到GPT-4o和Qwen2-72B-Instruct模型中，以评估其对模型在Loong基准测试上性能的影响。

RAG的不同配置：使用了两种不同的嵌入模型（OpenAI Embedding和BGE Embedding），并分别为每种模型设置了不同的top-k值（5、10、30和50），以及固定大小的chunk（1024）。

所有长度集合的总体结果

RAG性能分析：实验结果显示，RAG模块的加入并没有提高模型在Loong基准测试上的整体性能。相反，在某些情况下，RAG的使用导致了性能的下降。

RAG在不同任务中的表现：在需要稀疏证据的任务中，如Spotlight Locating，RAG表现出一定的效果。然而，在需要高度全面性的任务中，RAG的负面影响更为显著。

(b) 不同长度集合的详细结果。基线（baseline）指的是没有使用RAG模块的设置

与强大的长文本LLM相比，RAG在Loong基准测试中的表现较差。强大的LLM能够充分利用长文本中的完整信息流，捕捉复杂的依赖关系和语义信息，而RAG则会导致上下文碎片化和信息丢失。RAG并不适合通过集成来增强具有强大长文本建模能力的模型。

Leave No Document Behind:Benchmarking Long-Context LLMs with Extended Multi-Doc QAhttps://arxiv.org/pdf/2406.17419https://github.com/MozerWang/Loong

Fish AI Reader