通往AGI之路 03月23日 00:28
Voice Agent 开源框架 TEN,让你的 AI Agent 能听能说!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

TEN Framework是一个用于快速构建可音视频交互的AI Agent的开源框架。它解决了多模态数据传输复杂、延迟高的问题,并将LLM、STT、TTS等模型模块化,方便开发者灵活调用。TEN支持接入Dify与Coze,并兼容Deepseek、OpenAI、Gemini等主流厂商。该框架提供低延迟、可打断的交互体验,支持多语言、跨平台,并拥有丰富的插件和灵活的编排能力。开发者可以使用TEN构建AI外呼中心、智能玩具、数字人、语音操控电脑、AI游戏陪玩等多种应用。

🎙️ 支持多模态传输:TEN 能够处理语音、文本和图像等多种数据输入与输出,并支持级联和端到端模式,从而实现丰富的音视频交互体验。

⏱️ 低延迟、可打断的交互体验:TEN内置RTC技术,优化了实时通信能力,降低延迟,并支持VAD功能,允许用户在与AI交互过程中随时打断,模拟真实的对话体验。

🧩 插件丰富、灵活编排:TEN 支持接入全球主流的STT、LLM和TTS插件,开发者只需配置API key即可使用。同时,TEN 可以快速跟进最新技术,并支持灵活的编排,满足不同的应用场景需求。

🌐 多语言、跨平台支持:TEN 支持多种编程语言,如C++/Go/Python/Node.JS等,并且可以在Windows/Mac/Linux/移动端等多种平台上运行,方便开发者进行跨平台部署。

原创 WaytoAGI 2025-03-22 21:00 浙江

TEN 支持接入 Dify 与 Coze,只需配置 bot ID/API,就能让你的 bot 开口说话。

搭建 Voice Agent 就像是把大象装进冰箱,看上去只有三步很简单:

1)选择 LLM/STT/TTS 大模型

2)接入 WebRTC 或 WebSockets 进行实时传输

3)调整参数封装

但在实际使用过程中,却困难重重:

“😫回声太大、噪音太多”、“人声太杂听不清👂”

“人工智能如智障,说话都不能打断🤐”

“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”

“三段式看着简单实现的工程太难💻”

“多模态数据间的实时传输太麻烦了、搞不定啊 🤯”

CPU 消耗怎么这么高?!!😢

于是,对话式 Voice Agent 开源框架——TEN Framework 应运而生!

TEN 解决了 Voice Agent 搭建过程中与多模态数据传输复杂、延迟高的问题,并且将LLM、STT、TTS 等模型进行模块化、自由调用,为开发者减少实现时的工程问题,更加聚焦于场景与业务内容,快速完成产品的落地与验证,并能够真正用于实际生产 💪

🤔 那么,TEN 是什么?

TEN 是一个实时对话式 Voice Agent 引擎,可以帮助开发者快速搭建可音视频交互的 AI Agent。

目前已经支持包括 Deepseek、OpenAI、Gemini等在内的全球各大主流 STT、LLM、TTS 厂商。

同时 TEN 可以支持接入 Dify  Coze,只需配置 bot ID/API,就能让你的 bot 开口说话。

(TEN 已经支持的 extension)

🤩 TEN 有哪些优势 ? 

1、支持多模态传输:可满足语音、文本和图像的输入与输出

    2、低延迟、可打断:内置优化后的实时通信能力,提供低延时、可打断的交互体验

      3、插件丰富、灵活编排:支持接入全球主流 STT、LLM和 TTS,快速使用

        4、多语言、跨平台:支持主流语言,Agent 可跨平台无缝衔接

          🤖 用 TEN 可以做出什么?

          1、TEN + SIP:AI 外呼中心

          AI 外呼中心,如:企业客服/外呼中心/专业咨询......

          让客户打电话给你定制的 AI Agent 专家!

          Demo 里演示的是心理咨询专家,可以看到 Agent 在听到“我”说心情不好时语气也低沉了下来,语音在这种场景下比文字更合适。

          2、TEN + 硬件:智能玩具

          故事机/智能音箱/AI 玩具/智能家居......

          目前已支持 ESP 32,你可以直接与 ESP 32进行低延迟、可打断的对话,让他给你讲个故事。

          3、TEN + 数字人:虚拟陪伴

          TEN目前支持 Trulience avatars 虚拟形象,让你的 AI 导购/虚拟宠物/AI 游戏陪玩......

          你可以让小狗与你切换方言、进行语音交流;

          也可以和 AI 一起下棋,动嘴就能操控,解放双手。

          4、TEN + Computer Use:语音操控电脑

          自然语言交互界面(LUI)会越来越进入我们的生活。

          用语音开启浏览器、电脑 App、记 memo......你也可以用 TEN 打造自己的“贾维斯”。

          5、TEN + 游戏:AI游戏陪玩

          语音剧本杀之东方快车谋杀案。

          跟 NPC 聊聊案件发生时 TA 们都在做什么,沉浸式体验,一个人也可以玩剧本杀。

          6、TEN + Gemini 2.0:看得见的个人助理

          在使用 Gemini 2.0 模型时,TEN 不仅能听见,还能看见!

          当通过摄像头/屏幕共享与 TEN 分享图片时,他不仅可以精准地认出小猫咪的颜色,还能辨别出具体品种!🐱

          7、TEN + 能说能画的故事机

          TEN 提供了 Storyteller 作为 usecase,内置文生图模型插件,可引导用户去共同完成一个故事,同时生成精彩的配套图片!

          📒 如何使用 TEN 呢?

          如果您是新手,希望能够 step by step 的学习如果使用 TEN Agent,欢迎参考油管博主 Developer Digest 的教程👇

          以下视频来自小红书博主 @T8.star👇

          如果您已经基本了解 TEN 了,也欢迎尝试最新上线的虚拟人 TEN + Trulience👇

          最后,如果你对 TEN 感兴趣,欢迎star项目,支持并跟进项目最新动态!

          😺 快速体验链接:https://agent.theten.ai/

          💻 本地部署 Github 链接:

          https://github.com/TEN-framework/TEN-Agent

          更多案例,请来我们WaytoAGI的知识库查看!

          ↙️点击阅读原文跳转

          阅读原文

          跳转微信打开

          Fish AI Reader

          Fish AI Reader

          AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

          FishAI

          FishAI

          鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

          联系邮箱 441953276@qq.com

          相关标签

          TEN Framework AI Agent 语音交互 多模态
          相关文章