机器之心 前天 15:35
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北京深度逻辑智能科技有限公司与宁波东方理工EIT-NLP实验室合作,针对低资源语言TTS的挑战,提出了一种创新的泰语语音合成解决方案。该方案通过数据优化驱动的声学建模框架,构建多维泰语语料库,结合先进的声学建模技术,实现了高质量TTS合成效果,并具备零样本声音克隆能力。这项研究为解决小语种TTS的数据稀缺和语言复杂性问题提供了可行的工程化路径。

🗣️ **数据驱动框架:** 该研究的核心在于构建数据优化驱动的声学建模框架。研究团队系统化采集并标注跨领域语音、文本与语言学信息,构建多维泰语语料库,为后续的声学建模奠定基础。

📝 **预处理流程:** 针对泰语文本的无标点、无空格、声调复杂等问题,研究设计了强大的预处理流程,包括停顿预测、分词优化和G2P优化,将原始文本转换为结构化的“音素-声调”序列,降低了后续声学模型学习难度。

🤖 **TTS模型架构:** 该研究的TTS模型集成了“多源特征 × 声调感知 × 零样本克隆”的设计。通过Phoneme-Tone BERT在音素序列中显式融入五声调,精准捕捉泰语语义-韵律关联,并利用GAN解码器实现高保真、低延迟合成,同时支持零样本声音克隆。

🔬 **实验结果:** 实验结果表明,该框架在泰语TTS合成方面表现出色,不仅在公开基准测试中超越了开源系统和商业方案,在专业术语发音与语速控制上也表现更优。此外,该模型还具备零样本声音克隆能力,在仅提供几秒参考音的情况下,即可生成目标说话人的高保真语音。

2025-05-26 09:29 北京

一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成。

该工作由北京深度逻辑智能科技有限公司×宁波东方理工EIT-NLP实验室联合完成。

语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

然而,这一繁荣几乎局限于英语、普通话等资源充沛的大语种;全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性,在数据收集、文本前端处理和声学建模上都面临巨大挑战,导致高质量 TTS 迟迟无法落地。破解「小语种困境」既是学术前沿课题,也是实现数字包容与多语文化传播的关键。

面对这一挑战,逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成,该工作已经被 ACL 2025 Industry track 正式接收!

这项工作提出了一种数据优化驱动的声学建模框架的创新方案,通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集,并结合先进的声学建模技术,成功实现了在有限资源下的高质量 TTS 合成效果。

此外,该框架还具备 zero-shot 声音克隆的能力,展示了优异的跨场景适用性,为行业提供了一种在数据稀少环境下高效构建小语种 TTS 系统的有效范式,对推动全球小语种 TTS 技术的落地与普及具有重要的启示和借鉴意义。

数据优化驱动的声学建模框架方案

该工作遵循数据驱动模型能力的整体思路:

整套框架以数据质量为核心抓手、以模块化设计保障可扩展性,为解决小语种 TTS「数据稀缺 + 语言复杂」双重瓶颈提供了一条可复制、可落地的工程化路径。

泰语专项数据集构建

该工作构建了一套专为低资源泰语 TTS 设计的多维数据集,涵盖语音、文本和注释三大类:

先进的预处理流程

该工作设计了一套强大的预处理流程。预处理流水线最大的亮点在于「三步一体、逐层解耦」地化解泰语文本的无标点、无空格、声调复杂三重难题:

该流水线不仅输出结构化的「音素-声调」序列,大幅降低后续声学模型学习难度,也为其他低资源音调语言提供了可复用的文本前端范式。

卓越的 TTS 模型架构

该工作的 TTS 模型集成了「多源特征 × 声调感知 × 零样本克隆」的组合设计:

整体采取「先独立训练预测器,再与解码器联合微调」的策略,兼顾稳定性与音质,使模型达到 SOTA 表现并支持零样本声音克隆。

实验效果

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TTS 泰语 语音合成 低资源语言
相关文章