原创 SiliconCloud 2024-12-05 11:55 北京
全面的语言支持、架构创新和卓越性能。
今天,Fish Audio正式发布语音合成模型Fish Speech 1.5。该模型采用创新的DualAR架构,在超过100万小时语言数据中进行训练,支持13种语言,目前在TTS Arena上的ELO分数排名第二。
一如既往,硅基流动SiliconCloud第一时间上线了推理加速版fishaudio/fish-speech-1.5(商用版,价格为105元/百万UTF-8字节,每个字符占用1到4个字节),包含网络传输时间在内,让模型输出延迟低100ms,实现实时语音合成,为你的生成式AI应用带来更高效的用户体验。值得一提的是,SiliconCloud上的Fish Speech 1.5支持开箱即用的8种预置音色,支持用户预置音色以及动态音色,并可自定义语速、音频增益和输出采样率。
在线体验
https://cloud.siliconflow.cn/playground/text-to-speech/17885302653
API文档
https://docs.siliconflow.cn/api-reference/audio/create-speech
感受一下SiliconCloud的推理加速版fish-speech-1.5的效果。
结合SiliconCloud此前上线的语音识别模型SenseVoice-Small(可免费使用)及平台上其他各类大模型,开发者轻松调用模型API即可高效开发端到端语音交互应用,包括有声读物、流媒体音频输出、虚拟助手等应用。
模型性能及特点
相比此前SiliconCloud上线的Fish Speech 1.4,Fish Speech 1.5的主要改进包括更精炼的数据处理流水线,增强了训练方法,提高了模型输出的稳定性以及更高级的情感表达能力。
在技术架构方面,Fish Speech 1.5实现了DualAR架构,采用双自回归Transformer设计。其中,主Transformer以21Hz运行,以实现高效的延迟管理;次级Transformer将潜在状态转换为声学特征。这种方法在计算效率和输出质量方面都明显优于传统的级联方法。在准确度方面,Fish Speech V1.5的的英文单词错误率(WER)为3.5%,英文字符错误率(CER)为1.2%,中文字符错误率(CER)为1.3%。
在性能方面,官方提供的数据显示,Fish Speech 1.5在TTS Arena上的ELO分数领先多个模型。
Token工厂SiliconCloud
Qwen2.5(7B)等20+模型免费用
作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。
除了fish-speech-1.5,SiliconCloud已上架包括QwQ-32B-Preview、LTX-Video、Qwen2.5-Coder-32B-Instruct、Hunyuan-A52B-Instruct、Llama-3.1-Nemotron-70B-Instruct、Qwen2-VL、InternVL2、Qwen2.5-Math-72B、Qwen2.5-7B/14B/32B/72B、FLUX.1、DeepSeek-V2.5、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat在内的数十款开源大语言模型、图片/视频生成模型、代码/数学模型、向量与重排序模型以及多模态大模型。
其中,Qwen2.5(7B)、Llama3.1(8B)等20+大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。
近期更新
• SiliconCloud上线QwQ-32B-Preview
• SiliconCloud上线Qwen2.5-Coder-32B
• 让3000万用户享受大模型语言学习服务
• SiliconCloud上线视频生成模型LTX-Video
• SD3.5上线ControlNet三件套,BizyAir同步支持
• SiliconCloud更新日志:上线6个模型;支持微调
让超级产品开发者实现“Token自由”
邀好友用SiliconCloud,狂送2000万Token/人
即刻体验QwQ-32B-Preview
siliconflow.cn/zh-cn/siliconcloud
扫码加入用户交流群