掘金 人工智能 05月16日 18:28
零代码构建 RAG 私有知识问答服务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了如何使用CloudCanal快速构建RAG(Retrieval-Augmented Generation)智能问答服务,无需编写任何代码。CloudCanal作为数据同步平台,具备多源异构数据接入与加工能力,结合其RagApi,用户只需创建两个任务即可获得专属RAG服务。RagApi封装了向量检索与模型问答能力,支持自定义配置,适配多种模型与平台,并兼容OpenAI API接口。文章以CloudCanal官方文档为知识库,演示了如何利用PostgreSQL向量数据库和阿里云百炼平台构建私有知识问答服务。

🚀 **CloudCanal RagApi 的核心优势**:相比传统RAG架构手动部署流程,CloudCanal 提供的 RagApi 服务具有双任务完成全流程(文档导入 + API 发布)、零代码部署、参数可调、多模型与平台适配以及OpenAI API 兼容接口等独特优势。

🛠️ **构建 RAG 服务的关键步骤**:首先,下载 CloudCanal 并准备必要的资源,包括阿里云百炼 API-KEY 和本地 PostgreSQL 数据库。然后,通过 CloudCanal 平台添加数据源,包括文件(CloudCanal 官方文档)、向量数据库(PostgreSQL)和大模型(阿里云 DashScope)。

🔗 **创建数据向量化和 RagApi 服务两个核心任务**:任务一,将 SshFile 中的文档数据向量化并导入 PostgreSQL 向量数据库;任务二,配置 RagApi 服务,选择 PostgreSQL 作为源端,RagApi 作为目标端,并配置嵌入模型和聊天模型,系统将自动完成 RagApi 服务构建。

🧪 **通过 CherryStudio 进行效果测试与验证**:RagApi 支持通过可视化工具 CherryStudio 进行交互测试,CherryStudio 兼容 OpenAI 接口标准。用户只需配置 API 密钥和地址,即可在对话框中输入问题,RagApi 将根据向量数据检索相关内容,并通过对话模型生成响应。

在《深入浅出 GenAI 核心概念》中,我们已经厘清了 GenAI 的关键概念:RAG、Function Calling、MCP、AI Agent。接下来的问题在于,如何从概念到实操?

目前,网上可以搜到很多 RAG 构建教程,但大部分教程都基于 LangChain 等,对小白来说仍有一定的入门门槛。

CloudCanal 本身作为数据同步平台,已经具备多源异构数据的接入与加工能力,为 RAG 系统构建语义搜索基础打下了天然优势。近期 CloudCanal 推出的 RagApi 封装了向量检索与模型问答能力,为用户提供一个即插即用的智能查询接口。只需在 CloudCanal 中创建两个任务,即可获得你的专属 RAG 服务,全程无需使用代码。

CloudCanal RagApi 优势

相比传统 RAG 架构手动部署流程,CloudCanal 提供的 RagApi 服务具有以下独特优势:

实例演示

本文将以 CloudCanal 官方文档为知识库,构建关于 CloudCanal 产品的 RAG 问答服务。

创建这样一个 RAG 私有知识问答服务,需要用到:

整体工作流程如下:

操作步骤

下载 CloudCanal

下载安装 CloudCanal 私有部署版本

准备资源

    登录 阿里云百炼 并创建 API-KEY。本地安装免费的 PostgreSQL 数据库
#!/bin/bash# 创建 docker-compose.yml 文件cat <<EOF > docker-compose.ymlversion: "3"services:  db:    container_name: pgvector-db    hostname: 127.0.0.1    image: pgvector/pgvector:pg16    ports:      - 5432:5432    restart: always    environment:      - POSTGRES_DB=api      - POSTGRES_USER=root      - POSTGRES_PASSWORD=123456    volumes:      - ./init.sql:/docker-entrypoint-initdb.d/init.sqlEOF# 自动执行 docker-compose 启动docker-compose up --build# 进入 PG 命令行docker exec -it pgvector-db psql -U root -d api
    创建高权限账号并登录。切换到需要建表的目标 schema (如public)。执行以下 SQL 开启向量能力。
CREATE EXTENSION IF NOT EXISTS vector;

添加数据源

登录 CloudCanal 平台,点击 数据源管理 > 新增数据源

添加文件:

选择 自建 > SshFile 数据源,可设定额外参数

[  {    "db":"cc_virtual_fs",    "schemas":[      {        "schema":"/Users/johnli/source/cloudcanal-doc-v2",        "tables":[]      }    ]   }]

添加向量数据库:

选择 自建 > PostgreSQL,获取数据源并添加。

添加大模型:

选择 阿里云 > 手动填写 > DashScope 数据源,填写之前步骤获取的 API-KEY。

添加 RagApi 服务:

选择 自建 > RagApi

创建任务 1:数据向量化

    点击 同步任务 > 创建任务。选择以下数据源,并点击 测试连接 确认网络与权限正常。
      源端:SshFile目标端:PostgreSQL

    功能配置 页面,任务类型选择 全量迁移,任务规格选择默认 2 GB 即可。在 表&action过滤 页面,进行以下配置:
      选择需要定时数据迁移的文件,可同时选择多个。点击 批量修改目标名称 > 统一表名 > 填写表名(如 file_vector),并确认,方便将不同文件向量化并写入同一个表。

    数据处理 页面,进行以下配置:
      点击 配置大模型 > DashScope,选择刚添加的大模型实例,并选择某一个嵌入模型(如 text-embedding-v3)。

    点击 批量操作 > 大模型嵌入,选择需要嵌入的字段,并全选表。

    创建确认 页面,点击 创建任务,开始运行。

创建任务 2:RagApi 服务

    点击 同步任务 > 创建任务。选择以下数据源,并点击 测试连接 确认网络与权限正常。
      源端:已配置的 PostgreSQL(向量表所在库)目标端:RagApi

    功能配置 页面,任务类型选择 全量迁移,任务规格选择默认 2 GB 即可。在 表&action过滤 页面,选择要使用的向量表(可多选)。

    数据处理 页面,配置大模型

      嵌入模型:选择 DashScope 实例与向量数据使用的嵌入模型(如 text-embedding-v3)。

      注意:PostgreSQL 中的向量维度需与选定嵌入模型一致。

      聊天模型:选择 DashScope 实例与对话模型(如 qwq-plus)。

    创建确认 页面,点击 创建任务,系统将自动完成 RagApi 服务构建。

效果测试

RagApi 支持通过可视化工具 CherryStudio 进行交互测试。CherryStudio 兼容 OpenAI 接口标准,适合用于接口联调、上下文调试和模型效果验证。

    打开 CherryStudio,点击左下角 设置图标

    模型服务 中搜索 openai,并配置如下参数:

      模型名称:CC_RAG

    回到对话页面:
      点击 添加助手 > Default Assistant。右键点击 Default Assistant > 编辑助手 > 模型设置,绑定上一步添加的模型。

    在对话框输入:CloudCanal 增量同步任务延迟是什么原因?应该怎么处理?,RagApi 将根据向量数据检索相关内容,并通过对话模型生成响应。

总结

经过简单的几步,我们完成了从零构建 RagApi 服务的全过程:从数据向量化、接入向量库、配置大模型、构建 Prompt,到部署兼容 OpenAI 接口的对话服务 RagApi。

整个过程无需编写任何代码,借助 CloudCanal 提供的可视化平台和多模型支持,企业可以快速构建具备私有知识问答能力的智能服务。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CloudCanal RAG 智能问答 零代码
相关文章