硅基流动 2024年12月05日
SiliconCloud上线Fish Speech 1.5:实时语音合成,可自定义音色与语速
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Fish Audio发布了语音合成模型Fish Speech 1.5,该模型采用创新的DualAR架构,在超过100万小时的语言数据中进行训练,支持13种语言,并在TTS Arena上排名第二。SiliconCloud上线了推理加速版,将模型输出延迟降低至100ms以内,实现实时语音合成。Fish Speech 1.5支持8种预置音色,并可自定义语速、音频增益和采样率。结合SiliconCloud的其他模型,开发者可以轻松构建端到端语音交互应用,如虚拟助手、有声读物等。此外,Fish Speech 1.5在准确度和性能方面均有显著提升,例如英文单词错误率仅为3.5%。SiliconCloud作为一站式云服务平台,提供20+大模型API,其中包括Qwen2.5(7B)等免费模型,帮助开发者降低研发成本,实现‘Token自由’。

🚀 **DualAR架构创新:** Fish Speech 1.5采用创新的DualAR架构,包括主Transformer和次级Transformer,在计算效率和输出质量方面优于传统方法,有效降低延迟并提升合成质量。

🗣️ **多语言支持与高准确度:** 该模型支持13种语言,并在英文和中文方面都取得了较低的错误率,例如英文单词错误率仅为3.5%,中文字符错误率为1.3%。

🎨 **自定义音色和参数:** Fish Speech 1.5提供8种预置音色,并支持用户自定义音色、语速、音频增益和输出采样率,让开发者能够根据需求灵活调整语音合成效果。

⏱️ **实时语音合成:** SiliconCloud上线的推理加速版将模型输出延迟降低到100ms以内,实现了实时语音合成,为用户提供更流畅的体验。

💡 **端到端语音交互应用:** 结合SiliconCloud平台上的其他模型,开发者可以轻松构建端到端语音交互应用,例如虚拟助手、有声读物、流媒体音频输出等。

原创 SiliconCloud 2024-12-05 11:55 北京

全面的语言支持、架构创新和卓越性能。


今天,Fish Audio正式发布语音合成模型Fish Speech 1.5。该模型采用创新的DualAR架构,在超过100万小时语言数据中进行训练,支持13种语言,目前在TTS Arena上的ELO分数排名第二。

一如既往,硅基流动SiliconCloud第一时间上线了推理加速版fishaudio/fish-speech-1.5(商用版,价格为105元/百万UTF-8字节,每个字符占用1到4个字节),包含网络传输时间在内,让模型输出延迟低100ms,实现实时语音合成,为你的生成式AI应用带来更高效的用户体验。值得一提的是,SiliconCloud上的Fish Speech 1.5支持开箱即用的8种预置音色,支持用户预置音色以及动态音色,并可自定义语速、音频增益和输出采样率。



在线体验 

https://cloud.siliconflow.cn/playground/text-to-speech/17885302653

API文档 

https://docs.siliconflow.cn/api-reference/audio/create-speech 


感受一下SiliconCloud的推理加速版fish-speech-1.5的效果。


结合SiliconCloud此前上线的语音识别模型SenseVoice-Small(可免费使用)及平台上其他各类大模型,开发者轻松调用模型API即可高效开发端到端语音交互应用,包括有声读物、流媒体音频输出、虚拟助手等应用。

模型性能及特点


相比此前SiliconCloud上线的Fish Speech 1.4,Fish Speech 1.5的主要改进包括更精炼的数据处理流水线,增强了训练方法,提高了模型输出的稳定性以及更高级的情感表达能力。 


在技术架构方面,Fish Speech 1.5实现了DualAR架构,采用双自回归Transformer设计。其中,主Transformer以21Hz运行,以实现高效的延迟管理;次级Transformer将潜在状态转换为声学特征。这种方法在计算效率和输出质量方面都明显优于传统的级联方法。在准确度方面,Fish Speech V1.5的的英文单词错误率(WER)为3.5%,英文字符错误率(CER)为1.2%,中文字符错误率(CER)为1.3%。 


在性能方面,官方提供的数据显示,Fish Speech 1.5在TTS Arena上的ELO分数领先多个模型。 


Token工厂SiliconCloud
Qwen2.5(7B)等20+模型免费用

作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。
除了fish-speech-1.5,SiliconCloud已上架包括QwQ-32B-PreviewLTX-VideoQwen2.5-Coder-32B-InstructHunyuan-A52B-InstructLlama-3.1-Nemotron-70B-InstructQwen2-VL、InternVL2Qwen2.5-Math-72BQwen2.5-7B/14B/32B/72BFLUX.1DeepSeek-V2.5InternLM2.5-20B-ChatBCE、BGESenseVoice-SmallGLM-4-9B-Chat在内的数十款开源大语言模型、图片/视频生成模型、代码/数学模型、向量与重排序模型以及多模态大模型。




其中,Qwen2.5(7B)、Llama3.1(8B)等20+大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。

 

近期更新 

 SiliconCloud上线QwQ-32B-Preview
 SiliconCloud上线Qwen2.5-Coder-32B 
 让3000万用户享受大模型语言学习服务
 SiliconCloud上线视频生成模型LTX-Video
 SD3.5上线ControlNet三件套,BizyAir同步支持
 SiliconCloud更新日志:上线6个模型;支持微调

让超级产品开发者实现“Token自由”

邀好友用SiliconCloud
狂送2000万Token/人

即刻体验QwQ-32B-Preview
siliconflow.cn/zh-cn/siliconcloud
扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Fish Speech 1.5 语音合成 DualAR架构 SiliconCloud TTS
相关文章