【重磅开源】纯前端RAG文档处理神器,让你的知识库质量提升10倍!
🔥 为什么你需要这个工具?
在构建RAG(检索增强生成)知识库时,你是否遇到过这些痛点:
- 文档格式混乱,结构不统一大量文件需要手动预处理,效率低下文档中包含大量无关内容,影响检索质量不同格式文件需要不同处理方式,难以批量操作担心隐私数据泄露,不敢使用在线服务
RAG文档处理器就是为解决这些问题而生的!它是一个完全在浏览器中运行的文档批处理工具,专为RAG知识库的文档预处理设计,让你的知识库质量提升10倍!
✨ 核心特性
- 🚀 纯前端实现:完全在浏览器端运行,无需后端服务,保护隐私数据安全📝 多格式支持:轻松处理md、txt、html等多种文本格式🤖 自定义智能体:可配置多个AI智能体,每个智能体有独立的处理逻辑📦 批量处理:支持多文件批量上传和处理,效率翻倍📊 处理进度跟踪:实时显示处理进度和状态,掌控全局💾 本地存储:配置和处理结果保存在本地,保护隐私🔄 并发处理:支持多文件并发处理,提高效率
🛠️ 技术栈
项目采用现代前端技术栈构建,确保高性能和良好的用户体验:
- React 18.3.1:前端核心框架TypeScript 5.5.3:提供类型安全的开发体验Vite 5.4.8:现代构建工具,提供快速的开发体验Tailwind CSS:原子化CSS框架,用于UI样式开发Radix UI:无样式组件库,提供可访问性组件Zustand:轻量级状态管理库React Query:API状态管理和缓存Axios:HTTP客户端,用于API调用
🚀 如何使用
1. 配置API
首次使用需要配置OpenAI API密钥:
- 点击"设置"按钮输入您的OpenAI API密钥可选:修改API基础URL(如果使用代理服务)保存配置
2. 创建智能体
智能体是处理文档的核心,你可以根据不同需求创建多个智能体:
- 进入"智能体"页面点击"新建智能体"填写智能体名称和描述编写处理提示词(Prompt)选择模型和参数保存智能体配置
3. 上传和处理文件
有了智能体后,就可以开始处理文件了:
- 进入"文件"页面上传需要处理的文件(支持多选)选择要使用的智能体点击"处理"按钮开始处理等待处理完成下载处理结果
💡 智能体配置示例
以下是一个用于优化Markdown文档结构的智能体配置示例:
你是一个专业的文档数据清洗专家,负责处理和优化用于RAG知识库构建的文档。请按照以下指南对提供的文档进行全面清洗和标准化处理:### 数据清洗任务:1. 去除无关内容: - 删除所有广告内容 - 移除页眉页脚信息(如页码、章节标题等重复出现的元素) - 清除水印文本 - 去除版权声明、免责声明等非核心内容 - 删除装饰性特殊字符和符号2. 标准化格式: - 将所有文本转换为UTF-8编码 - 统一标点符号(如将全角标点转为半角,或根据文档主要语言选择合适的标点规范) - 规范化空格使用(删除多余空格,保持段落间隔一致) - 对于中文文档,确保使用标准中文标点 - 对于英文部分,统一大小写规范(如专有名词、缩写等)3. 处理缺失值和噪声: - 修正OCR错误(如"0"与"O"、"1"与"l"的混淆) - 识别并修复断行导致的词语分割 - 合并被错误分割的段落 - 修正明显的拼写和语法错误 - 标记无法修复的损坏内容4. 结构优化: - 重新组织文档的层次结构(标题、小标题、段落) - 确保列表格式一致(编号、项目符号等) - 保持表格数据的完整性和可读性 - 确保图表引用的连贯性5. 语义保全: - 确保清洗过程不改变原文档的核心含义 - 保留专业术语和领域特定词汇 - 维持上下文关系和逻辑连贯性
🔐 隐私与安全
RAG文档处理器高度重视用户隐私和数据安全:
- 本地处理:所有文件处理在浏览器端完成,不上传到任何服务器加密存储:API密钥在本地加密存储无数据收集:不收集任何用户数据或使用情况统计开源透明:代码完全开源,可审计
🌟 适用场景
企业知识库建设:
- 处理历史文档,统一格式和结构清理内部文档中的敏感信息优化技术文档,提高检索质量
个人知识管理:
- 整理学习笔记,提高结构化程度处理网页保存的内容,去除广告和无关信息标准化各种来源的资料,便于构建个人知识库
内容创作者:
- 批量处理草稿,提高内容质量统一多篇文章的格式和风格优化内容结构,提高可读性
🤝 如何贡献
欢迎贡献代码或提出建议!请遵循以下步骤:
- Fork本仓库创建您的特性分支 (
git checkout -b feature/amazing-feature
)提交您的更改 (git commit -m 'Add some amazing feature'
)推送到分支 (git push origin feature/amazing-feature
)打开一个Pull Request📝 结语
RAG文档处理器是构建高质量知识库的得力助手,它能帮助你快速处理大量文档,提高知识库的质量和检索效果。无论你是企业知识管理者、研究人员还是个人知识爱好者,这个工具都能为你节省大量时间,提高工作效率。
赶快前往GitHub仓库,开始使用这个强大的工具吧!
注意:本工具需要OpenAI API密钥才能正常工作。请确保您有有效的API密钥并在设置中正确配置。