2024-06-30 19:25 湖北
? Loong一个新颖的长上下文基准测试,通过扩展多文档问题回答(QA)与现实场景对齐,从Spotlight定位、比较、聚类和推理链的角度引入了新的评估任务,总体得分排序:
Gemini-Pro1.5 (1000K)
GPT-4o (128K)
Claude3.5-Sonnet (200K)
Claude3-Haiku (200K)
Qwen2-72B-Instruct (128K)
GLM4-9B-Chat (1000K)
Kimi-Chat (200k)
四项评估任务的总体结果。对于每项任务,左侧的指标代表平均分(0~100),而右侧的代表完美率(0~1)。
LLM在不同长度设置的四项评估任务上的性能。对于每项任务,左侧的指标代表平均分(0~100),而右侧的指标代表完美率(0~1)。
Loong中四项评估任务的展示(
长上下文大模型RAG or Not?
尝试将RAG模块集成到GPT-4o和Qwen2-72B-Instruct模型中,以评估其对模型在Loong基准测试上性能的影响。
RAG的不同配置:使用了两种不同的嵌入模型(OpenAI Embedding和BGE Embedding),并分别为每种模型设置了不同的top-k值(5、10、30和50),以及固定大小的chunk(1024)。
所有长度集合的总体结果
RAG性能分析:实验结果显示,RAG模块的加入并没有提高模型在Loong基准测试上的整体性能。相反,在某些情况下,RAG的使用导致了性能的下降。
RAG在不同任务中的表现:在需要稀疏证据的任务中,如Spotlight Locating,RAG表现出一定的效果。然而,在需要高度全面性的任务中,RAG的负面影响更为显著。
(b) 不同长度集合的详细结果。基线(baseline)指的是没有使用RAG模块的设置
与强大的长文本LLM相比,RAG在Loong基准测试中的表现较差。强大的LLM能够充分利用长文本中的完整信息流,捕捉复杂的依赖关系和语义信息,而RAG则会导致上下文碎片化和信息丢失。RAG并不适合通过集成来增强具有强大长文本建模能力的模型。
Leave No Document Behind:Benchmarking Long-Context LLMs with Extended Multi-Doc QA
https://arxiv.org/pdf/2406.17419
https://github.com/MozerWang/Loong
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。