新型开源端到端 AI 语音模型！Voila：195ms 超低延迟引领全双工对话！

语音交互技术的进步正在改变人机对话的方式，但传统语音助手受限于高延迟、单向交互和缺乏情感表达。

Maitrix 团队最新发布的开源 AI 端到端语音模型：Voila，其以 195ms 超低延迟及全双工对话得到众多开发者及企业的关注。

它是一款真正端到端、全双工、低延迟、可调角色的 AI 语音模型，可实现像人类一样“边听边说”的自然对话，并支持中英等多语言识别与翻译，具备极强的个性化和对话上下文保持能力。

支持实时自主对话、自动语音识别（ASR）、文本转语音（TTS）和多语言语音翻译，预置百万种语音和可定制角色。

核心功能

全双工语音对话：可同时听与说，不再是“你说完我再说”，模拟真实人类对话

超低延迟：仅 195 毫秒延迟，超越人类平均反应时间（200-250ms）

ASR/TTS支持：高精度语音转文本、文本转语音

语音个性预设：预置 100 万种语音风格（性别、年龄、情绪、音色均可控制）

多语言支持：支持中英等多语种 ASR + TTS + 翻译

多模型分类：提供了用于各种音频任务的统一模型

快速入手

Voila 提供有在线网页版Demo地址直接体验，也可使用Python方式直接调用。

在线Gradio：huggingface.co/spaces/mait…

在线网页端打开后，你会看到它分为Chat、TTS、ASR三大模块，可选择语音角色，打开麦克风直接进行语音对话，或上传音频进行语音转文本等功能。

Python使用方式

① 克隆项目

git clone https://github.com/maitrix-org/Voila.gitcd Voila

② 实时语音对话

import torchfrom transformers import AutoModel, AutoProcessormodel = AutoModel.from_pretrained("maitrix-org/Voila-base").to("cuda")processor = AutoProcessor.from_pretrained("maitrix-org/Voila-base")audio_input, _ = librosa.load("test.mp3", sr=16000)inputs = processor(audio=audio_input, sampling_rate=16000, return_tensors="pt").to("cuda")outputs = model.generate(**inputs, max_length=2000)audio_output = processor.decode(outputs.audio, sampling_rate=16000)with open("output.wav", "wb") as f:    f.write(audio_output)    python infer.py --model-name "maitrix-org/Voila-base" --input-audio "test.mp3" --task-type chat_aiao

③ 文本输入

python infer.py --model-name "maitrix-org/Voila-chat" --input-text "Hello" --task-type chat_tito

④ 角色定制

python infer.py --model-name "maitrix-org/Voila-chat" --input-text "Speak as a cheerful guide" --task-type chat_tito

⑤ 在线Web界面

python gradio_demo.py

典型应用场景

AI 虚拟人（直播、陪伴机器人）

AI 语音助手（如车载、智能硬件）

实时语音翻译器

多角色语音教学助手

RPG 语音 AI 剧情引擎（支持角色自定义）

架构设计

Voila 采用模块化设计，包含：

ASR 模块：语音识别模块（实时）

LM 模块：语言模型模块（支持多模态思考）

TTS 模块：文本转语音模块（低延迟、可调节音色/情绪）

Controller：调度和个性化对话控制器（角色指令解析器）

可通过 Hugging Face + WebRTC 实现浏览器或本地实时语音对话。

写在最后

这款 Voila 模型确实是语音 AI 的一个突破性进展，特别是在“全双工”“端到端”“超低延迟”这些关键特性上。

它作为一款刚刚开源的新型语音模型，实现了真正的全双工对话能力 — 就像真人一样边听边说、低延迟互动、可自定义说话者性格。

可通过文本 prompt 指令设置说话者“人设”，生成百万种不同声音。

如果你在构建 AI 语音应用，Voila 是一个值得重点关注的下一代模型。

GitHub 开源地址：github.com/maitrix-org…

核心功能

快速入手

典型应用场景

架构设计

写在最后

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签