PaperAgent 2024年07月02日
最新Loong LLM多文档问答评测:GPT-4o只排第二,垫底的竟是它?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Loong是一个长上下文基准测试,引入新评估任务,展示了多种LLM在该测试上的性能,还探讨了RAG模块的集成效果及在不同任务中的表现。

🐉Loong通过扩展多文档问题回答与现实场景对齐,从多个角度引入新评估任务,包括Spotlight定位、比较、聚类和推理链等。

🎯多种LLM在Loong的四项评估任务上进行了性能测试,总体得分排序有所不同,每项任务的指标包括平均分和完美率。

🔍RAG模块被尝试集成到部分模型中,但实验结果显示其加入并未提高模型在Loong基准测试上的整体性能,在某些情况下甚至导致性能下降。

💡在需要稀疏证据的任务中,RAG表现出一定效果,但在需要高度全面性的任务中,其负面影响更为显著。

2024-06-30 19:25 湖北

? Loong一个新颖的长上下文基准测试,通过扩展多文档问题回答(QA)与现实场景对齐,从Spotlight定位、比较、聚类和推理链的角度引入了新的评估任务,总体得分排序:

    Gemini-Pro1.5 (1000K)

    GPT-4o (128K)

    Claude3.5-Sonnet (200K)

    Claude3-Haiku (200K)

    Qwen2-72B-Instruct (128K)

    GLM4-9B-Chat (1000K) 

    Kimi-Chat (200k) 

四项评估任务的总体结果。对于每项任务,左侧的指标代表平均分(0~100),而右侧的代表完美率(0~1)。

LLM在不同长度设置的四项评估任务上的性能。对于每项任务,左侧的指标代表平均分(0~100),而右侧的指标代表完美率(0~1)。

Loong中四项评估任务的展示(... 标记第 i 个文档的内容)。a) Spotlight定位:定位证据。b) 比较:定位并比较证据。c) 聚类:定位并把证据聚类成组。d) 推理链:定位并沿着逻辑链进行推理

长上下文大模型RAG or Not?

尝试将RAG模块集成到GPT-4o和Qwen2-72B-Instruct模型中,以评估其对模型在Loong基准测试上性能的影响。

RAG的不同配置:使用了两种不同的嵌入模型(OpenAI Embedding和BGE Embedding),并分别为每种模型设置了不同的top-k值(5、10、30和50),以及固定大小的chunk(1024)。

所有长度集合的总体结果

RAG性能分析:实验结果显示,RAG模块的加入并没有提高模型在Loong基准测试上的整体性能。相反,在某些情况下,RAG的使用导致了性能的下降

RAG在不同任务中的表现:在需要稀疏证据的任务中,如Spotlight Locating,RAG表现出一定的效果。然而,在需要高度全面性的任务中,RAG的负面影响更为显著。

(b) 不同长度集合的详细结果。基线(baseline)指的是没有使用RAG模块的设置

与强大的长文本LLM相比,RAG在Loong基准测试中的表现较差。强大的LLM能够充分利用长文本中的完整信息流,捕捉复杂的依赖关系和语义信息,而RAG则会导致上下文碎片化和信息丢失。RAG并不适合通过集成来增强具有强大长文本建模能力的模型。

Leave No Document Behind:Benchmarking Long-Context LLMs with Extended Multi-Doc QAhttps://arxiv.org/pdf/2406.17419https://github.com/MozerWang/Loong

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Loong LLM RAG 基准测试
相关文章