V2EX 前天 16:32
[问与答] 怎样预处理长文本,来提升大模型检查是否符合预定义规则的效果?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文讨论了在工程文档中识别风险的智能体开发方案,针对10万字文档的预处理问题,提出了基于Dify等工具的解决方案。文章比较了两种方法:一是将规则向量化,对文档分块后进行向量召回或关键词匹配;二是构建关键词表,预处理后进行RAG与LLM判定。文章还提到了作者的背景是土木转技术开发,希望获得相关经验和教程。

💡 **方案一:向量化与分块处理**:该方法将所有风险规则向量化,然后将工程文档切分成10-100块。对每一块文档,使用向量召回或关键词匹配技术,找出与风险规则最相关的前K条规则。随后,多段并发调用大模型进行审查,最后汇总审查结果。这种方法依赖于向量数据库和高效的文本分块策略。

🔑 **方案二:关键词表与RAG**:此方案首先为300条风险规则生成高召回关键词表。在文档预处理阶段,根据关键词表筛选文档段落,丢弃不包含关键词的文本块,以此减少后续处理的数据量。然后,采用RAG(检索增强生成)技术结合大模型进行风险判定。这种方法强调关键词的精准性和RAG技术的应用。

🤔 **Dify工具的适用性**:文章询问了Dify是否能实现上述流程。Dify是一个低代码AI应用开发平台,理论上可以用于构建文档审查智能体,但具体实现取决于Dify的功能和用户对技术的掌握程度。Dify可以用于构建RAG流程,并调用大模型进行文本分析和风险识别。

如题,业务场景是工程文档的风险识别,我有一套风险识别规则,想查找工程文档原文中是否有违反相应规则的风险,想要使用 dify 等工具开发智能体,实现上传文档 → 输出审查报告的流程,每个文档大约有 10 万字,这么长的字数肯定不可能直接上传,要做预处理。有什么好的提升精准度的方法?

风险规则示例:“1.超大件运输未办理相关许可、超大件运输运输车辆未按照规定路线行驶; 2.人员冒险进入起重机械工作区域等危险场所; 3.未编制《锚艇作业安全操作规程》,未严格按安全操作规程要求进行作业。”,

问了几个 AI ,给出的几种方案包括1.所有规则向量化,文档暴力切分成 10-100 块,每块使用向量召回或关键词匹配,找出最相关的前 K 条规则,多段并发调用大模型审查,最后汇总结果2.先为 300 条规则生成高召回关键词表,本地按段落预处理后丢弃不包含关键词的文本块,再做 RAG 与 LLM 判定。

请问 V 友是否有相关经验,哪种方式更好?是否有相应的教程可以参考? dify 能实现以上流程吗?

本人土木狗转技术开发,所以基础比较差,有点言不达意,求轻拍

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

风险识别 工程文档 智能体 Dify RAG
相关文章