PaperAgent 03月09日 20:03
RAG+DeepSeek R1的正确打开方式~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍如何使用DeepSeek R1构建针对法律文件的RAG系统。强调了DeepSeek R1在推理生成方面的优势,以及Qwen2嵌入模型在检索方面的适用性。通过对比实验,揭示了DeepSeek R1不适合直接用于检索的原因,并突出了其在生成阶段的强大能力,尤其是在处理复杂法律查询时,能有效综合多个文档信息,减少幻觉,并清晰地引用相关段落。此外,还分享了构建法律RAG系统的技术栈,包括数据集、向量存储和嵌入模型等。

🚀 **DeepSeek R1不擅长检索:** 尽管DeepSeek R1具有出色的推理能力,但它不适合生成嵌入,至少目前来看是这样。实验表明,DeepSeek R1生成的嵌入在检索结果上明显逊于专门的嵌入模型如Qwen2,因为DeepSeek R1主要被设计为推理引擎,不擅长将文档映射到语义空间。

💡 **DeepSeek R1擅长生成:** DeepSeek R1的生成能力非常出色,尤其是在结合思路链方法时。它能综合来自多个文档的见解,清晰地引用相关段落,减少幻觉。其推理过程显示了如何从源法律文件中得出结论,能够有条不紊地连接多个来源的概念。

📚 **法律RAG系统技术栈:** 构建法律RAG系统的关键技术栈包括:法律数据集(如pile-of-law数据集的子集),ChromaDB作为向量存储,用于存储嵌入、存储和查询,用于检索的Qwen2嵌入,以及DeepSeek R1用于生成最终答案。

PaperIddea 2025-03-08 21:07 湖北

DeepSeek R1 在首次发布时就展现了出色的推理能力,如何正确赋能RAG系统?今天分享一篇使用 DeepSeek R1 构建针对法律文件的 RAG 系统的正确打开方式指南(Do's and Dont'ts)。

为法律文件构建 DeepSeek R1 RAG 得到一些重要的教训:

    利用专门的嵌入模型(如 Qwen2)实现强大的检索;在生成阶段使用 DeepSeek-R1 的推理能力来解决复杂的法律查询;提示工程(PE)仍然是控制引用和构建内容的关键;使用 vLLM 加速推理,从而大幅提高效率和速度。

之所以选择法律文件,是因为法律专业人士经常面临一项艰巨的任务:浏览案例库、法规和非正式法律评论。在大量法律文件数据集的基础上,使用 DeepSeek R1 和 Qwen2 嵌入构建了 RAG,并开源了构建 RAG 的整个流程。

先看下它的实际效果

1. 不要使用 DeepSeek R1 进行检索

尽管DeepSeek R1具有出色的推理能力,但它并不适合生成嵌入 —— 至少现在还不行。

发现了一些例子,表明 DeepSeek R1 生成的嵌入与专门的嵌入模型

Alibaba-NLP/gte-Qwen2-7B-instruct(MTEB排行榜上当前最好的嵌入模型)相比有多糟糕。

使用两个模型为数据集生成嵌入,并组成两个向量数据库。然后,对两个模型使用相同的查询,并在相应模型生成的向量数据库中找到前 5 个最相似的嵌入。

上表中,DeepSeek R1的检索结果明显更差,这是为什么呢?

2. 使用 R1 进行生成:理由令人印象深刻

虽然R1在嵌入方面遇到了困难,但发现它的生成能力非常出色。通过利用 R1 的思路链方法,我们看到:

让我们看一些例子:

从这些例子中,可以看出DeepSeek R1的推理能力非常出色。它的思维过程清楚地显示了如何从源法律文件中得出结论:

用各种法律查询尝试了该模型,并且该模型始终表现出不仅可以从源文档中提取信息,还可以从中学习和推理的能力。

要点:对于问答和总结,R1是循序渐进的法律逻辑的宝藏。将其保留在生成阶段,几乎不会后悔。

3. 法律RAG系统的技术栈

技术栈使用:

https://github.com/skypilot-org/skypilot/tree/master/llm/rag

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 RAG系统 法律文件 Qwen2 推理生成
相关文章