掘金 人工智能 05月31日 11:33
开源2天斩获3K标星!开源TTS新星Chatterbox盲测击败ElevenLabs!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Chatterbox是由Resemble AI推出的首个生产级开源TTS模型,以其情绪夸张控制、超低延迟和神经水印等特性,迅速在GitHub上走红。该模型基于LLaMA架构,拥有50万小时的训练数据,在盲测中超越了ElevenLabs,被认为是史上最真实的开源语音合成模型之一。Chatterbox支持零样本语音克隆,仅需5秒音频即可克隆声音,适用于播客、游戏开发、虚拟助手和教育等多种场景,为语音合成领域带来了新的可能性。

🎭Chatterbox是首个支持情绪夸张控制的开源TTS模型,允许用户调节语音的表现力,适用于需要戏剧性语音生成的场景。用户可以通过调整exaggeration值,控制语音的情感强度。

🗣️Chatterbox支持零样本语音克隆,仅需5秒的参考音频,即可克隆目标声音,无需额外的训练。这极大地简化了语音定制的流程,使得用户可以轻松地为应用添加个性化的语音。

⏱️Chatterbox具有超低延迟,推理延迟低于200ms,非常适合实时对话应用。这一特性使得Chatterbox能够应用于虚拟助手和实时客服等场景,提供流畅自然的交互体验。

🛡️Chatterbox集成了PerTh神经水印技术,可以在生成的语音中隐秘地嵌入内容标记,从而提升AI安全性和可溯源性。这有助于防止AI语音被滥用,并方便追溯语音的来源。

🚀Chatterbox易于安装和部署,官方提供了Python包,可以通过pip命令直接安装。同时,HuggingFace上也提供了在线Demo体验版本,方便用户快速上手体验其强大的语音合成能力。

文本转语音(TTS)技术近年来随着AI的快速发展突飞猛进,但要在真实感、情绪表达和实时性上达到顶尖水平,仍是巨大挑战。

但零样本TTS和情感控制的兴起,涌现了一大批优秀的TTS模型,让语音合成进入了新的纪元。

最近,开源 TTS 领域迎来了一位超级重磅新星,它叫:Chatterbox,开源 2 天即冲上 GitHub 热榜,星标狂飙超 3K!

截止到我昨晚写这篇文章时,GitHub上已有 3.2K Star!成为近年来增长最快的开源 TTS 模型之一!

项目介绍

Chatterbox 是 Resemble AI 推出的首个生产级开源 TTS 模型,它还是首个支持情感夸张控制的开源 TTS 模型。

支持情绪控制、超低延迟(<200ms),还能嵌入神经水印确保AI安全。

凭借LLaMA架构(0.5B参数)、50万小时训练数据和创新的情绪夸张控制,它不仅媲美闭源巨头 ElevenLabs,还在最新盲测中超越对手。

它经过了两年的线上检验,处理了数百万个请求,有 63.75% 听众认为 Chatterbox 的音质优于 ElevenLabs,堪称史上最真实的开源语音合成模型之一。

核心功能亮点

安装与部署

Chatterbox 的安装也极其友好且简单,官方将其直接打包为一个Python包,可通过 pip 命令直接安装。

pip install chatterbox-tts

三行代码即可解锁超真实语音生成体验。

import torchaudio as tafrom chatterbox.tts import ChatterboxTTSmodel = ChatterboxTTS.from_pretrained(device="cuda")text"Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."wav = model.generate(text)ta.save("test-1.wav", wav, model.sr)# 如果你想使用不同的声音进行合成,请指定音频提示AUDIO_PROMPT_PATH="YOUR_FILE.wav"wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)ta.save("test-2.wav", wav, model.sr)

同时 Chatterbox 在 HuggingFace 上也有部署好的Demo在线体验版本,有兴趣的小伙伴可以前往体验。

Tips:默认设置(exaggeration=0.5, cfg_weight=0.5)适合大多数场景,快速语音用cfg_weight=0.3,戏剧化场景用exaggeration=0.7。

适用场景

Chatterbox的情感控制和低延迟让它适用于多种场景,直击TTS痛点:

写在最后

Chatterbox 发布仅两天,GitHub 星标已达 3K+,增长速度令人惊叹!

Resemble AI 后续还计划优化模型效率,增加多语言支持和更细粒度的情绪控制。

作为一名互联网科技博主,我对 Resemble AI 的开源精神和 Chatterbox 的卓越性能佩服不已。无论是创意视频、游戏配音还是实时助手,Chatterbox 都能让你的内容“开口说话”,充满生命力。

而且其真实度、控制力均超行业领先的 ElevenLabs,是当前最接近人类表现力的 TTS 模型之一!

GitHub 项目地址:github.com/resemble-ai…

HF 在线体验:huggingface.co/spaces/Rese…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Chatterbox TTS 语音合成 开源模型 AI
相关文章