掘金 人工智能 05月04日 11:09
《ESP-AI开发套件》极速上手指南
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

ESP-AI开发套件是一个开源的AI硬件开发平台,旨在帮助开发者零门槛地体验大模型与硬件的融合开发。它支持多模态交互和智能设备控制,能够快速构建商业化的AIoT解决方案。该套件具备三重唤醒方式、全链路流式交互和情绪可视化等核心特性,提供插件化架构、可视化配置中心和企业级功能,方便开发者自由接入LLM/TTS/IAT引擎,实时调整设备参数,并支持C/S架构、鉴权体系和负载均衡。通过连接LLM,嵌入式设备能够理解语言、进行交互,实现从“只能做”到“能听懂、会说话”的跨越。

🌐ESP-AI通过连接LLM,使嵌入式设备具备“理解语言、进行交互”的能力,实现自然对话、语音指令理解和个性化角色互动,内置多种对接LLM的方式,包括OpenAPI接入、本地模型桥接和流式接口处理。

💡ESP-AI内置官方大语言模型(LLM)服务,包括免费版本和超快版本,适配不同的开发场景与性能需求。免费版本适合个人开发和快速原型验证,超快版本则适用于语音连续对话或商业部署场景。所有版本均可与ESP-AI的本地语音功能结合使用,实现真正的“云边协同”体验。

🗣️ESP-AI提供官方ASR服务,支持本地与云端混合部署,具备低延迟识别、端云协同、流式识别支持和中英混读支持等优势。同时,它还支持关键词唤醒联动,可配合本地唤醒词模型使用,节省带宽与请求次数,并支持接入私有部署的OpenASR/Whisper API,保护隐私数据。

📚ESP-AI的知识库功能允许用户上传多种格式的文档,构建结构化或非结构化文本内容,为LLM提供外部补充知识,实现更准确、更专业、更可控的智能回答。知识库支持智能分片与嵌入、语义检索和私有部署,并提供高性能向量搜索引擎。

《ESP-AI开发套件》极速上手指南

🌐 项目定位

开箱即用的AI硬件开发平台,基于MIT协议开源,助力开发者:

📢 开发者交流群:QQ 952051286
📦 开源仓库立即访问

🧭 核心特性

交互体系

✅ 三重唤醒方式:
语音 | 按钮 | 触摸

✅ 全链路流式交互:
🎤 语音输入 → 🧠 智能处理 → 💬 语音输出

✅ 情绪可视化:
💡 RGB灯光 + 😃 表情UI实时反馈AI状态

开发支持

🔌 插件化架构:自由接入任意LLM/TTS/IAT引擎
🔧 可视化配置中心:网页端实时调整设备参数
🛡️ 企业级功能:C/S架构 + 鉴权体系 + 负载均衡支持

🧰 准备工作

硬件连接

第一步:硬件准备

拿到一个ESP-AI开发板或者准备好一套diy套件,见:物料准备

第二步:注册用户

点击开放平台,注册并登录上去,首次登录需要使用手机号码验证。创建一个超体,不用更改任何配置,官方默认已经配备完成。

第三步:观看官方视频资料

开放平台使用教程:固件烧录、配网、基本对话教程。视频教程

ESP-AI 用户使用手册

🧠什么是 LLM?为什么 ESP-AI 离不开它?

LLM(Large Language Model,大语言模型) 是一种具备强大自然语言理解与生成能力的人工智能模型,能够理解人类语言,生成流畅对话,执行各种智能任务。常见的 LLM 包括 ChatGPT、DeepSeek、豆包等。

ESP-AI 通过连接这些 LLM,让嵌入式设备具备“理解语言、进行交互”的能力,实现从“只能做”到“能听懂、会说话”的跨越。

❓在 ESP-AI 中,LLM 可以做到什么?

    自然对话:用户可以和设备对话,像和真人交流一样自然。语音指令理解:识别“打开灯”、“播放音乐”等命令词,理解用户意图。个性化角色互动:通过不同的提示词,赋予设备不同“性格”,打造智能助手、虚拟人物等。

❓ESP-AI 如何使用 LLM?

ESP-AI 内置多种对接 LLM 的方式:

    OpenAPI 接入支持:支持直接连接第三方大模型接口,完成聊天、问答等。本地模型桥接:可对接自部署的 Ollama、FastChat 等服务,降低使用成本。流式接口处理:内置对话流控制能力,可实时处理语音转文字、文字转语音等任务。

💡ESP-AI 官方 LLM 介绍

ESP-AI 内置官方大语言模型(LLM)服务,用户无需额外配置即可使用。平台支持免费版本与超快版本,适配不同的开发场景与性能需求。

🌐 模型服务版本

所有版本均可与 ESP-AI 的本地语音功能结合使用,实现真正的“云边协同”体验。


📚 免费版本支持的大模型列表

模型名称参数规模特点描述推荐用途
千问 32B32B通用能力强,支持复杂问答智能助手、泛用问答
OpenChat 7B7B多轮对话表现优异问答、对话
WizardLM2 7B7B指令理解优化,指令执行能力强指令型对话
千问 7B7B微调适配角色设定角色聊天推荐
DeepSeek-R1 14B14B检索能力与知识问答能力优秀知识问答系统
千问 72B72B超大模型,逻辑推理与思考能力强专业级对话
角色扮演通用模型-轻量级模型,响应速度快快速交互场景

⚡ 超快版本支持的大模型列表

模型名称参数规模特点描述推荐用途
Doubao-lite-4k-响应超快,低延迟对话优化聊天推荐
DeepSeek-R1671B热门通用模型,理解力优秀多轮问答
Doubao-pro-32k-上下文增强,逻辑表达更清晰智能助手
Doubao-1.5-pro-256k-超长上下文支持,推理能力出色专业知识问答
Doubao-1.5-vision-pro-32k-具备图文理解能力的视觉模型多模态场景

✅ 模型选择建议

使用场景推荐版本推荐模型
快速体验免费版本千问 7B / OpenChat 7B
虚拟角色互动免费版本千问 7B / 角色扮演通用模型
高频语音交互超快/免费版本Doubao-lite-4k / 角色扮演通用模型
专业问答 / 多轮任务超快/免费版本Doubao-pro-32 /256k/ DeepSeek-R1/千问 32/72B
图文理解超快版本Doubao-1.5-vision-pro-32k

ESP-AI 正在不断接入更多 LLM 模型,满足用户多样化的应用需求。你也可以通过配置自定义 API 接入自己的模型服务。

👩提示词(Prompt)定义与设置建议

📘 什么是提示词?

提示词(Prompt) 是指用于引导 大语言模型(LLM) 行为的一段文字,通常用于设定模型的角色、语气、背景知识或任务目标。一个设计良好的提示词可以显著提升模型输出的准确性和一致性。

ESP-AI 中,提示词主要用于设定系统角色(如:老师、助手、虚拟角色等),并结合用户输入,为对话提供语义引导。提示词的精度越高,模型理解和回答的质量越好。

🎯 提示词设置建议

系统提示词优先:建议只设置一个系统提示词,说明 LLM 的身份与行为边界。例如:“你是一位幽默风趣的百科问答助手,善于用简短语言解释复杂问题。”

一键设置预设角色:ESP-AI 提供丰富的角色模板,点击即可应用,无需手动输入提示语。

支持高级自定义:对于高级用户,可扩展上下文信息,如添加规则、数据约束、风格等,进一步提升 LLM 的准确性与个性。

🧩 对话结构规范

为了让模型正确理解上下文,对话应遵循以下结构:

系统消息(system)必须放在最前面

用户消息(user)与助手消息(assistant)需成对出现,顺序固定为“用户-助手”

每轮对话必须完整闭环,避免缺失角色;

示例:

{ 系统: "你是一位百科问答助手,善于用简洁的语言解释复杂知识。" },{ 用户: "黑洞为什么无法逃逸光?" },{ 助手(LLM): "assistant", "content": "因为黑洞的引力极强,逃逸速度超过光速,而光是宇宙速度的极限,因此无法逃脱。" }


合理使用提示词,将大大提升模型的回答质量和互动体验。ESP-AI 支持预设角色与自定义提示词,灵活适配各类应用场景。

官方 TTS(Text-To-Speech)语音合成功能介绍

🔊 什么是 TTS?

TTS(Text-To-Speech),即文本转语音技术,是将输入的文字内容实时合成为自然语音的能力。它使设备“开口说话”成为可能,是语音交互系统不可或缺的一环。

在 ESP-AI 中,TTS 负责将模型生成的文本输出转化为自然、可听的语音,实现完整的“语音对话闭环”。


🎯 ESP-AI 的 TTS 特性

ESP-AI 内置了官方高品质 TTS 服务,具备以下优势:

    即用即合成:无需模型部署,即调用即返回语音流,适合低延迟场景。🎙️ 多种声音选择:支持多位男女声、童声、角色声线,适配不同设备与使用情境。🔁 连续朗读能力:支持长文本分段朗读与语义间断优化,提升听觉体验。🌐 支持中英混读:内置中英文自动识别与切换机制,适配多语混合内容。

🚀 使用场景示例

应用场景TTS 用法说明
智能语音助手将模型输出的回答内容直接转换为语音播放
虚拟角色对话结合角色语音模型,赋予角色情绪与语调差异化表达
播报通知提醒用于报警播报、日程提醒、状态提示等信息的语音输出
儿童故事机批量朗读绘本、儿童故事等内容,增强亲和力与互动性

官方 ASR(Automatic Speech Recognition)语音识别功能介绍

🎙️ 什么是 ASR?

ASR(Automatic Speech Recognition,自动语音识别) 是将人类语音实时转换为文本的技术,是语音交互系统的核心之一。

在 ESP-AI 中,ASR 模块负责将用户说出的话转换为文字,并传递给大语言模型(LLM)进行语义理解与响应生成,从而实现完整的语音对话闭环。


🎯 ESP-AI 的 ASR 特性

ESP-AI 提供开箱即用的官方 ASR 服务,并支持本地与云端混合部署,具备以下优势:

    低延迟识别:官方服务部署在国内服务器,响应快,适合语音交互场景。🧠 端云协同:支持边缘设备录音上传、实时识别、节省设备算力。🔁 流式识别支持:可边说边识别,适合长句连续对话,体验更自然。🌐 中英混读支持:可识别中英混合语音,适用于多语种交流需求。🎯 关键词唤醒联动:可配合本地唤醒词模型使用,仅在唤醒后上传识别,节省带宽与请求次数。🔒 数据私有可控:支持接入私有部署的 OpenASR/Whisper API,保护隐私数据。

🧪 官方 ASR 服务说明

ESP-AI 提供的官方 ASR 支持两种接入方式:

接入方式特点说明
云端官方服务使用 ESP-AI 官方服务器完成语音识别,延迟低、体验流畅
私有部署 API支持对接 FastWhisper / OpenASR 等服务,自主控制、便于企业定制部署

🚀 应用场景示例

场景名称ASR 用法说明
智能语音助手用户讲话后自动转文字交给 LLM 回答
控制命令识别用于语音控制设备,如“打开空调”、“调低音量”等
多语言助手可识别中英混合内容,如“播放 some relaxing music”
唤醒词联动配合本地唤醒模块,仅在触发关键词(如“小明同学”)后启用远程识别

官方知识库功能介绍

📚 什么是知识库?

知识库(Knowledge Base) 是指一组结构化或非结构化文本内容,用于为大语言模型(LLM)提供外部补充知识,从而实现更准确、更专业、更可控的智能回答。

在 ESP-AI 中,知识库通过与本地或云端 LLM 结合,使设备不仅能“听懂”和“会说”,更能“知道”并“讲明白”。


🎯 ESP-AI 的知识库特性

    快速上传:支持上传 TXT、PDF、Markdown、网页、Word 等格式文档,一键构建知识库。🧠 智能分片与嵌入:自动将文本切片,生成语义向量用于相似度匹配,提升问答准确率。🔍 语义检索:通过语义向量匹配提取相关内容再交由 LLM 回答,避免“胡编”。🔐 支持私有部署:支持对接 Chroma / Weaviate / Qdrant 等开源向量数据库,数据安全可控。⚡ 高性能向量搜索引擎:官方服务基于高性能索引优化,响应速度快,适用于多轮问答和长内容提取。

🧪 官方知识库服务说明

模式类型功能说明
官方托管模式直接上传文本,使用 ESP-AI 内置知识库系统自动管理、分片、检索
私有部署模式用户可选择部署 Chroma / FAISS / Milvus 等向量数据库,自主控制存储与接口访问

🚀 应用场景示例

场景名称知识库应用说明
专业客服系统将产品手册、FAQ 文档上传为知识库,辅助 LLM 回答用户提问,提高准确率
企业培训助手上传企业规章制度、操作流程文档,构建企业知识助手,支持员工自助问答
私人 AI 管家上传个人笔记、收藏资料、日记等内容,打造贴身记忆型 AI 助手
教育答疑机器人上传课程教材、题库解析等内容,为学生提供实时解答服务
虚拟 IP 对话系统给角色添加背景世界观文档或人物小传,结合 LLM 构建“有记忆”的虚拟角色互动体验

知识库构建流程

📤 如何上传知识内容?

    登录 ESP-AI 控制台,进入「知识库管理」页面;点击「新建知识库」,填写名称和描述;支持上传 .txt, .md, .pdf, .docx, 网页链接 等格式文件;系统将自动完成分片、嵌入并构建向量索引,无需手动处理。

🔍 如何使用知识库进行问答?

    在系统提示词或对话上下文中启用知识库,例如:

    “请仅根据知识库中的内容作答。”

    使用 ESP-AI 对话 API 时,自动携带知识库上下文进行问答增强(RAG);可开启「只答知识库内信息」模式,避免模型编造内容。

🧹 如何清理或更新知识库?

    重新上传新版本内容即可;系统将自动重新分片与更新向量,不影响现有接口调用;支持按文件、知识库、关键词等条件搜索并管理数据。

通过上述构建流程,你可以快速为设备加载专属知识,实现“定制型问答”。ESP-AI 让知识不再是死板的 FAQ,而是可理解、可联想、可对话的活性资源。

官方额度卡(计费与充值)说明

💳 什么是官方额度卡?

额度卡是 ESP-AI 官方推出的统一计费方式,用于支付平台所提供的各类服务,包括:

    LLM 对话调用(官方模型、角色模型、流式接口等)TTS 语音合成(标准音色、克隆音色、超快通道)ASR 语音识别(普通识别、流式识别)知识库调用(语义检索 + LLM 回答)API 接口调用等其他增值功能

额度卡相当于一个“通用余额账户”,所有功能统一从中扣除,使用灵活、无需重复充值多个模块。


💰 ESP-AI 的计费模型

ESP-AI 使用“预付费 + 统一结算”方式:

    额度卡充值后将实时到账并绑定至当前账号;每次调用 API 或触发语音/识别等动作时,将根据调用类型自动按比例扣除额度;无需额外配置订阅套餐,额度用多少算多少,透明清晰;不设月结,余额不足将自动停止服务,避免过度消费;

🧾 示例服务单价(参考值)

功能模块计费方式扣费比例(示例)
基础调度费用单次调度消耗1点额度15000次调度 ≈ 118 元
未标明额外扣费服务免费免费
第三方api引用免费免费
官方LLM(超快)单次调度消耗1点额度15000次使用 ≈ 118 元
TTS 合成(超快)单次调度消耗1点额度15000次使用 ≈ 118 元
ASR 识别(超快)单次调度消耗1点额度15000次使用 ≈ 118 元
知识库上传检索单次上传消耗1点额度15000次上传 ≈ 118 元
歌曲创作(赠送额度)免费赠送白虎卡单次消耗120点额度免费
歌曲创作(充值额度)单次创作歌曲消耗35点额度430首歌 ≈ 118 元
官方免费音色克隆(解析音频)单次解析音频扣除1点额度15000次解析 ≈ 118 元

实际价格请以控制台展示为准,上述为常规折算示意。


🎯 充值说明与权益

    支持在线充值(微信 / 支付宝 / 企业对公转账)充值额度越高,享受越多赠送比例与专属服务可开具电子发票,支持企业用户长期计费管理
单笔充值金额赠送比例适合人群
¥8.8无赠送测试体验、个人开发
¥18.8 - ¥118+3%~10%中小型项目
¥1000++10%~20%企业 / 高频使用

🔐 消耗明细查看

用户可在「ESP-AI 控制台 → 额度卡」页面查看:


🧠 额度卡适用建议

使用场景推荐策略
Demo/原型验证充值 ¥20~¥50,体验主要能力
高频语音互动建议使用超快通道并充值 ¥200 以上
智能客服类系统建议配置 ¥1000 起步 + 赠送额度
知识库问答机器人可设置预算 + 查看消耗明细分布优化

如何充值额度卡?

🧾 充值流程

    登录 ESP-AI 控制台;点击额度卡 → 「我的额度」;点击「购买兽卡」按钮;选择充值金额(可选 ¥8.8、¥18.8、¥38.8、¥118、自定义);选择支付方式(支持:微信 / 支付宝 / 企业转账);支付完成后额度将自动到账,可立即使用。

💡 补充说明

若你是企业客户或有批量接入需求,可联系官方进行专属充值通道配置。

离线语音唤醒模块 ASPRO 使用说明

🛎️ 什么是 ASPRO 唤醒模块?

ASPRO 是 ESP-AI 提供的本地语音唤醒解决方案模块,专为 ESP32-S3 等边缘设备优化设计,支持无需联网即可在设备上实现稳定、高效的唤醒词识别。

与传统的云端唤醒方式相比,ASPRO 模块具备以下显著优势:

    🚫 完全离线运行,不依赖网络,保障隐私⚡ 响应快速,平均唤醒延迟小于 150ms🎯 可自定义唤醒词,支持烧录任意关键词(如“小明同学”、“你好助手”等)🧠 高准确率,内置降噪、回声消除、前端预处理🛠️ 即插即用,提供标准 API 及工具链支持,适配 Arduino / ESP-IDF 等开发环境

ASPRO 模块适合构建需要本地识别能力的设备,如语音遥控器、智能语音盒子、玩具手办、语音控制家居等场景。


🔧 ASPRO 的核心作用

在 ESP-AI 的整体语音交互架构中,ASPRO 主要用于 “前置唤醒”阶段,即在用户说话前判断是否“叫醒”设备,流程如下:(用户说“唤醒词”)→ ASPRO 在本地监听并识别 → 唤醒成功 → 开始录音上传 / LLM 交互

这不仅减少了后台算力浪费,也极大地降低了云端识别成本,是高频场景中节省资源、提升体验的重要手段。


自定义唤醒词烧录教程

🔨 支持的唤醒词模型格式

ASPRO 使用的是 离线二进制模型(.bin 格式),由官方或工具链训练生成,格式要求如下:

    代码文件类型:*.hd支持汉字编译支持常见关键词拼音+语义训练方式

🧰 准备工作

在开始烧录前,请确保你具备以下环境:

    购买ASPRO开发版安装ASPRO 渠道二:语雀平台下载(推荐、不限速下载);USB 数据线,连接开发板至电脑;核心板需要额外购买ASRPRO烧录器下载并打开代码(代码保存在社群文件:qq群:952051286 )

🚀 烧录步骤(以 Arduino 为例)

    将社群下载好的代码保存在桌面上;保证天问编译平台下载安装完毕;双击打开代码;注册并登录天问Block;讲想要的唤醒词输入准确位置,点击生成模型;点击2M编译下载。

✅ 唤醒后建议集成操作

延迟录音:为避免截断唤醒词,建议唤醒后延迟 200~300ms 开始录音;

搭配灯光、声音提示反馈用户唤醒成功,提高体验感;

标准 OTA 升级功能说明

🔄 什么是 OTA 升级?

OTA(Over-The-Air)升级 是指通过无线网络将固件或配置文件远程推送到设备,从而实现系统功能更新、Bug 修复、安全补丁部署等目的的升级方式。

相比传统的“手动刷固件”方式,OTA 拥有以下明显优势:

    远程触发,无需物理接线或靠近设备⚙️ 自动下载并验证,保障版本安全与完整性🚀 最小中断升级体验,多数情况下无需重配或用户干预📦 差分升级节省流量,支持仅下载变化部分,适合窄带物联网设备

在 ESP-AI 中,标准 OTA 被作为系统默认推荐升级方式,适用于所有基于 ESP32 系列的终端设备。


📦 ESP-AI OTA 的特性

ESP-AI 提供完整的 OTA 解决方案,包含固件升级配置升级两个维度:

类型描述
固件 OTA升级 .bin 固件,更新程序逻辑和内核
配置 OTA推送 json/yaml 等配置文件

所有 OTA 操作均可通过 ESP-AI 控制台或 API 进行统一管理,适配不同产品形态。


🧠 OTA 的典型应用场景

应用场景升级内容示例
固件修复或安全加固修复逻辑崩溃、补充漏洞、协议变更等
更改引脚控制修改麦克风、扬声器、屏幕等引脚配置
OTA 批量部署对全量设备或指定 SN 批次进行统一升级控制

如何使用 ESP-AI 进行 OTA 升级

🧾 OTA 控制台操作流程

    登录 ESP-AI 控制台点击「设备管理」→「选择设备」点击「固件升级」,后台将推送 OTA 请求至目标设备

📌 任务发布后,设备将在下次联网时自动检测升级指令,并下载执行。


其他功能与辅助特性说明

ESP-AI 除了核心功能(LLM 对话、TTS、ASR、知识库、OTA 等),还为开发者和终端设备提供了丰富的辅助能力,进一步提升开发效率、交互体验和运维便利性。


🔌 设备连接与固件烧录功能

ESP-AI 提供便捷的固件烧录工具,支持:

    即插即烧:自动识别设备端口内置驱动适配:无需手动安装驱动支持一键烧录 ESP32/ESP32-S3 等主流模组可配置自动烧录启动参数(波特率、FLASH 分区)

🔧 工具推荐使用官方提供的固件烧录(支持 Win / Mac / Linux)


🧪 调试与日志查询功能

调试模块帮助开发者快速定位问题并理解设备状态:


🗣️ 自由配置系统提示语

支持在设备被激活的不同阶段播放自定义提示语音,增强用户反馈感与个性化:

触发场景可配置提示语
连接服务成功后“连接成功,欢迎使用 ESP-AI 语音助手”
被唤醒后“我在呢,有什么可以帮你?”
进入休眠状态“我休息一会儿,有事叫我哦~”
唤醒失败 / 网络中断等“当前网络不可用,请检查连接”

🧠 指令功能开放平台支持(内置命令)

ESP-AI 平台已内置开放指令集,便于开发者一键调用常用交互命令。例如:

✅ 所有指令以开放平台配置页面为准,支持自定义扩展。


📊 可视化调用调度与数据统计

控制台内置可视化数据分析模块:

    展示今日调用量、TTS 播放量、LLM 消耗 Token 等支持筛选按时间 / 设备 / 指令类型查看接口状态监控,支持 webhook 异常告警

🌈 TLED 状态灯说明(用于用户可视提示)

ESP-AI 支持内置状态灯控制规范,标准如下:

状态TLED 表现方式
无网络闪烁红色(slow blink)
配网状态闪烁黄色(快速闪烁)
设备待机/聆听状态常亮蓝色
正在 AI 回答中闪烁彩虹色(渐变呼吸灯效果)

📎 可根据产品外观和 LED 颗粒数,自定义状态灯逻辑控制。


通过上述辅助功能,ESP-AI 可帮助开发者快速部署稳定、高交互体验的语音设备,并具备完善的可视运维能力。

如需扩展自定义行为(如长按按钮触发 OTA、滑动触摸调音量等),可在控制台指令映射页进行配置或使用 SDK 实现。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ESP-AI AIoT 大语言模型 语音识别 知识库
相关文章