掘金 人工智能 07月10日 18:31
6 亿参数玩转 20 + 语言!OuteTTS-1.0-0.6B本地部署教程,轻量模型也能 hold 住跨语言合成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OuteAI发布的OuteTTS-1.0-0.6B是一款开源语音合成模型,基于Qwen-2.5-0.5B架构,参数规模6亿,专为轻量级高性能语音合成设计。该模型通过创新的技术路径,实现了多语言支持、声音克隆和低资源消耗的平衡,特别适合边缘计算和移动应用等场景。文章详细介绍了模型的特点、部署步骤以及UI界面,方便用户快速上手。

🗣️ 模型核心:OuteTTS-1.0-0.6B基于LLaMa架构,结合WavTokenizer技术,将音频转换为离散令牌序列,每秒处理150个令牌。CTC强制对齐技术确保文本与音频的精确映射,窗口化重复惩罚机制则提升了语音的连贯性。

🌍 多语言支持:该模型直接支持包括英语、中文、阿拉伯语等20多种语言的文本输入,无需罗马化处理。训练数据覆盖高资源和中等资源语言,未训练语言也能生成语音,但效果可能有限。

💻 部署步骤:文章详细介绍了在Ubuntu 22.04.4 LTS系统上部署OuteTTS的步骤,包括更新软件包、配置国内源、安装Miniconda3环境、创建虚拟环境、下载模型、安装PyTorch环境和依赖库,以及运行模型测试命令。

🖼️ UI界面:通过安装Gradio库,用户可以方便地访问UI界面,输入文本即可合成语音。文章提供了访问界面的方法,方便用户进行语音合成的体验。

一、模型介绍

OuteTTS-1.0-0.6B 是 OuteAI 于 2025 年 5 月发布的开源语音合成模型,基于 Qwen-2.5-0.5B 架构优化,参数规模 6 亿,专注于轻量级高性能语音合成。

该模型通过创新技术路径实现了多语言支持、声音克隆和低资源消耗的平衡,在边缘计算、移动应用等场景展现出独特优势。

技术特性:轻量化与多模态融合

模型采用 LLaMa 架构基础,结合 WavTokenizer 音频标记化技术,将连续音频波形转换为离散令牌序列,每秒处理 150 个令牌。通过 CTC 强制对齐技术,实现文本与音频的精确映射,无需预处理即可生成时间戳对齐的语音流。窗口化重复惩罚机制的引入,显著提升了语音输出的连贯性和自然度,尤其在长文本合成中表现稳定。

多语言支持是其核心亮点之一。模型直接支持英语、中文、阿拉伯语等 20 余种语言的文本输入,无需罗马化处理。训练数据覆盖高资源语言(如英语、中文)和中等资源语言(如葡萄牙语、波斯语),未训练语言也可生成语音但效果有限。

二、模型部署步骤

模型部署环境

ubuntu22.04.4 LTS
cuda12.4.1
python3.10
NVIDIA CorporationRTX4090

1.更新基础的软件包

查看系统版本信息

#查看系统的版本信息,包括ID(如ubuntu、centos等)、版本号、名称、版本号ID等cat /etc/os-release

配置国内源

#更新软件列表apt-get update

apt配置阿里源

vim  /etc/apt/sources.list


将以下内容粘贴进文件中

deb http://mirrors.aliyun.com/debian/ bullseye main non-free contribdeb-src http://mirrors.aliyun.com/debian/ bullseye main non-free contribdeb http://mirrors.aliyun.com/debian-security/ bullseye-security maindeb-src http://mirrors.aliyun.com/debian-security/ bullseye-security maindeb http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contribdeb-src http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contribdeb http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contribdeb-src http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib

2.基础Miniconda3环境

看系统是否有miniconda的环境

conda -V

显示如上输出,即安装了相应环境,若没有miniconda的环境请安装

3.创建虚拟环境

创建名为“Outetts”的虚拟环境

conda create -n OuteTTs python=3.10 -y

激活虚拟环境

conda activate OuteTTs

4.下载模型

输入命令克隆OuteTTS项目

git clone https://github.com/edwko/OuteTTS.gitcd OuteTTS

5.安装pytorch环境

安装pytorch,选择合适的版本安装,建议python版本至少为3.9及以上

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

持续等待直至出现“successfully”开头的提示,则安装成功

6.下载依赖库

pip install -e .

依赖库下载时间较长,直至出现“successfully”显示下载成功

7.存储模型运行命令

创建demo.py文件

vim demo.py

cat demo.py

运行模型测试命令

python demo.py

三、UI界面

下载其他缺失依赖包

pip install gradio

访问界面

python app.py

出现如上显示可通过项目实例的开放端口进行访问,输入需要生成语音的文本包括中文及英文即可合成

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OuteTTS 语音合成 开源模型
相关文章