硅基流动 2024年12月31日
Siliconcloud上线加速版CosyVoice2:150ms实时语音合成,支持混合语种和方言
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义实验室语音团队发布CosyVoice2,支持多语种等,SiliconCloud上线推理加速版,具有多种优势,部分开发者体验后给出评价,该平台还提供多种模型及免费服务。

CosyVoice2是基于大语言模型的流式语音合成模型,采用统一框架设计

支持多语种、混合语种和方言,超低延迟且合成质量高

新增中文指令处理能力和角色扮演功能,发音等方面有改进

部分开发者认为其语音合成表现出色,但部署有难题,SiliconCloud解决了部署问题

原创 SiliconCloud 2024-12-30 18:42 北京

更准确、更稳定、更快、更好的语音生成能力。

近日,阿里通义实验室语音团队正式发布语音合成模型CosyVoice2。该模型支持文本和语音的双向流式传输,支持多语种、混合语种和方言,提供更准确、更稳定、更快、更好的语音生成能力。


现在,硅基流动SiliconCloud正式上线推理加速版CosyVoice2-0.5B(价格为¥105/ M UTF-8 bytes,每个字符占用1到4个字节),包含网络传输时间在内,让模型输出延迟低至150ms,为你的生成式AI应用带来更高效的用户体验。与SiliconCloud上的其他语言合成模型一样,CosyVoice2支持开箱即用的8种预置音色,支持用户预置音色以及动态音色,并可自定义语速、音频增益和输出采样率。 


在线体验 
https://cloud.siliconflow.cn/playground/text-to-speech/17885302679

API文档 

https://docs.siliconflow.cn/api-reference/audio/create-speech

 

感受一下SiliconCloud的推理加速版CosyVoice2.0的效果。 



结合SiliconCloud此前上线的阿里语音识别模型SenseVoice-Small(可免费使用)及平台上其他各类大模型,开发者轻松调用模型API即可高效开发端到端语音交互应用,包括有声读物、流媒体音频输出、虚拟助手等应用。 


模型特点及性能


CosyVoice2是一个基于大语言模型的流式语音合成模型,采用统一的流式/非流式框架设计。该模型通过有限标量量化(FSQ)来提升语音token的编码本利用率,简化了文本到语音的语言模型架构,并开发了支持不同合成场景的分块感知因果流匹配模型。在流式模式下,模型可实现150ms的超低延迟,同时保持与非流式模式几乎相同的合成质量。
此外,CosyVoice2在基模型和指令模型的整合上取得了重要进展,不仅延续了对情感、说话风格和细粒度控制指令的支持,还新增了中文指令的处理能力。CosyVoice2也引入了角色扮演的功能,如能够模仿机器人、小猪佩奇的风格讲话等。

具体而言,与CosyVoice 1.0版本相比,2.0版本有以下优势: 


多语言支持


超低延迟


高精度


强稳定性


自然流畅度


开发者评价

 

CosyVoice2.0一经发布,部分开发者率先进行了体验。有开发者表示,它支持超精细的控制功能,语音合成声音更逼真自然。

不过,也有用户表示,尽管被它出色的语音生成表现吸引,但部署是一大难题。 


现在,Siliconcloud上线CosyVoice 2.0后,免去复杂部署,你只需轻松调用API,可以接入自己的应用里了。 


Token工厂SiliconCloud
Qwen2.5(7B)等20+模型免费用


作为一站式大模型云服务平台,SiliconCloud致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型API。 

除了CosyVoice2,SiliconCloud已上架包括QVQ-72B-PreviewDeepSeek-VL2DeepSeek-V2.5-1210mochi-1-previewLlama-3.3-70B-InstructHunyuanVideofish-speech-1.5QwQ-32B-PreviewQwen2.5-Coder-32B-InstructInternVL2Qwen2.5-7B/14B/32B/72BFLUX.1InternLM2.5-20B-ChatBCE、BGESenseVoice-SmallGLM-4-9B-Chat在内的数十种开源大语言模型、图片/视频生成模型、语音模型、代码/数学模型以及向量与重排序模型。  


其中,Qwen2.5(7B)、Llama3.1(8B)等20+大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。


近期更新

 BizyAir用户评测:无显卡玩转ComfyUI
 3分钟用SiliconCloud轻松打造专属LLM
 SiliconCloud上线加速版HunyuanVideo
 SiliconCloud上线加速版视觉推理模型QVQ
 SiliconCloud首发上线加速版DeepSeek-VL2
 成本直降100倍!LLM清洗/蒸馏数据高效方法

让超级产品开发者实现“Token自由”

邀好友用SiliconCloud,狂送2000万Token/人

即刻体验SiliconCloud上线加速版QVQ

cloud.siliconflow.cn

扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CosyVoice2 语音合成 多语种支持 超低延迟 SiliconCloud
相关文章