掘金 人工智能 05月08日 12:53
新型开源端到端 AI 语音模型!Voila:195ms 超低延迟引领全双工对话!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Maitrix 团队推出的开源 AI 语音模型 Voila,以其全双工、低延迟的特性引起广泛关注。该模型支持中英等多语言,实现像人类一样的“边听边说”的自然对话。Voila 具备超低延迟(195ms),超越人类平均反应时间。它提供ASR、TTS、多语言翻译等功能,并预设百万种语音风格,可实现个性化定制。用户可以通过在线网页版Demo或Python代码进行体验和调用,适用于AI虚拟人、语音助手、实时翻译等多种应用场景。

🗣️ **全双工对话**:Voila 模拟真实人类对话,实现“边听边说”的交互方式,不再是传统语音助手的单向对话模式。

⏱️ **超低延迟**:Voila 拥有仅 195 毫秒的超低延迟,显著优于传统语音助手,接近甚至超越人类的平均反应时间(200-250ms)。

🎤 **多功能支持**:该模型集成了自动语音识别(ASR)、文本转语音(TTS)和多语言语音翻译功能,并预置了百万种语音风格,用户可以根据需要定制语音的性别、年龄、情绪和音色。

💻 **便捷的体验方式**:Voila 提供在线网页版 Demo 和 Python 调用两种方式,方便用户快速体验和集成。用户可以通过 Hugging Face 和 WebRTC 实现浏览器或本地实时语音对话。

🛠️ **广泛的应用场景**:Voila 适用于多种应用场景,包括 AI 虚拟人、语音助手、实时语音翻译器、多角色语音教学助手以及 RPG 语音 AI 剧情引擎等。

语音交互技术的进步正在改变人机对话的方式,但传统语音助手受限于高延迟、单向交互和缺乏情感表达。

Maitrix 团队最新发布的开源 AI 端到端语音模型:Voila,其以 195ms 超低延迟及全双工对话得到众多开发者及企业的关注。

它是一款真正端到端、全双工、低延迟、可调角色的 AI 语音模型,可实现像人类一样“边听边说”的自然对话,并支持中英等多语言识别与翻译,具备极强的个性化和对话上下文保持能力。

支持实时自主对话、自动语音识别(ASR)、文本转语音(TTS)和多语言语音翻译,预置百万种语音和可定制角色。

核心功能

快速入手

Voila 提供有在线网页版Demo地址直接体验,也可使用Python方式直接调用。

在线Gradio:huggingface.co/spaces/mait…

在线网页端打开后,你会看到它分为Chat、TTS、ASR三大模块,可选择语音角色,打开麦克风直接进行语音对话,或上传音频进行语音转文本等功能。

Python使用方式

① 克隆项目

git clone https://github.com/maitrix-org/Voila.gitcd Voila

② 实时语音对话

import torchfrom transformers import AutoModel, AutoProcessormodel = AutoModel.from_pretrained("maitrix-org/Voila-base").to("cuda")processor = AutoProcessor.from_pretrained("maitrix-org/Voila-base")audio_input, _ = librosa.load("test.mp3", sr=16000)inputs = processor(audio=audio_input, sampling_rate=16000, return_tensors="pt").to("cuda")outputs = model.generate(**inputs, max_length=2000)audio_output = processor.decode(outputs.audio, sampling_rate=16000)with open("output.wav", "wb") as f:    f.write(audio_output)    python infer.py --model-name "maitrix-org/Voila-base" --input-audio "test.mp3" --task-type chat_aiao

③ 文本输入

python infer.py --model-name "maitrix-org/Voila-chat" --input-text "Hello" --task-type chat_tito

④ 角色定制

python infer.py --model-name "maitrix-org/Voila-chat" --input-text "Speak as a cheerful guide" --task-type chat_tito

⑤ 在线Web界面

python gradio_demo.py

典型应用场景

架构设计

Voila 采用模块化设计,包含:

可通过 Hugging Face + WebRTC 实现浏览器或本地实时语音对话。

写在最后

这款 Voila 模型确实是语音 AI 的一个突破性进展,特别是在“全双工”“端到端”“超低延迟”这些关键特性上。

它作为一款刚刚开源的新型语音模型,实现了真正的全双工对话能力 — 就像真人一样边听边说、低延迟互动、可自定义说话者性格。

可通过文本 prompt 指令设置说话者“人设”,生成百万种不同声音。

如果你在构建 AI 语音应用,Voila 是一个值得重点关注的下一代模型。

GitHub 开源地址:github.com/maitrix-org…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Voila AI语音模型 全双工 低延迟 开源
相关文章