SiliconCloud上线Fish Speech 1.5：实时语音合成，可自定义音色与语速

原创 SiliconCloud 2024-12-05 11:55 北京

全面的语言支持、架构创新和卓越性能。

今天，Fish Audio正式发布语音合成模型Fish Speech 1.5。该模型采用创新的DualAR架构，在超过100万小时语言数据中进行训练，支持13种语言，目前在TTS Arena上的ELO分数排名第二。

一如既往，硅基流动SiliconCloud第一时间上线了推理加速版fishaudio/fish-speech-1.5（商用版，价格为105元/百万UTF-8字节，每个字符占用1到4个字节），包含网络传输时间在内，让模型输出延迟低100ms，实现实时语音合成，为你的生成式AI应用带来更高效的用户体验。值得一提的是，SiliconCloud上的Fish Speech 1.5支持开箱即用的8种预置音色，支持用户预置音色以及动态音色，并可自定义语速、音频增益和输出采样率。

在线体验　

https://cloud.siliconflow.cn/playground/text-to-speech/17885302653

API文档　

https://docs.siliconflow.cn/api-reference/audio/create-speech　

感受一下SiliconCloud的推理加速版fish-speech-1.5的效果。

结合SiliconCloud此前上线的语音识别模型SenseVoice-Small（可免费使用）及平台上其他各类大模型，开发者轻松调用模型API即可高效开发端到端语音交互应用，包括有声读物、流媒体音频输出、虚拟助手等应用。

模型性能及特点

相比此前SiliconCloud上线的Fish Speech 1.4，Fish Speech 1.5的主要改进包括更精炼的数据处理流水线，增强了训练方法，提高了模型输出的稳定性以及更高级的情感表达能力。　

在技术架构方面，Fish Speech 1.5实现了DualAR架构，采用双自回归Transformer设计。其中，主Transformer以21Hz运行，以实现高效的延迟管理；次级Transformer将潜在状态转换为声学特征。这种方法在计算效率和输出质量方面都明显优于传统的级联方法。在准确度方面，Fish Speech V1.5的的英文单词错误率（WER）为3.5%，英文字符错误率（CER）为1.2%，中文字符错误率（CER）为1.3%。　

在性能方面，官方提供的数据显示，Fish Speech 1.5在TTS Arena上的ELO分数领先多个模型。　

Token工厂SiliconCloud
Qwen2.5（7B）等20+模型免费用

作为集合顶尖大模型的一站式云服务平台，SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。
除了fish-speech-1.5，SiliconCloud已上架包括QwQ-32B-Preview、LTX-Video、Qwen2.5-Coder-32B-Instruct、Hunyuan-A52B-Instruct、Llama-3.1-Nemotron-70B-Instruct、Qwen2-VL、InternVL2、Qwen2.5-Math-72B、Qwen2.5-7B/14B/32B/72B、FLUX.1、DeepSeek-V2.5、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat在内的数十款开源大语言模型、图片/视频生成模型、代码/数学模型、向量与重排序模型以及多模态大模型。