微软最新推出的DragonV2.1Neural零次学习文本到语音(TTS)模型,仅需几秒钟的语音样本,即可合成超过100种语言的语音,并能生成更自然、富有表现力的声音。该模型显著提高了发音准确性,单词错误率(WER)相比上一代平均降低12.8%,有效解决了专有名词的发音问题。DragonV2.1支持通过SSML音素标签和自定义词典进行精细的语音控制,适用于定制聊天机器人声音、多语言视频配音等多种场景,为语音合成技术带来重大突破。
🚀 **零次学习与多语言支持:** DragonV2.1模型的核心优势在于其“零次学习”能力,仅需极少量(几秒钟)的语音数据,就能合成超过100种语言的语音。这极大地降低了语音合成的门槛,使得跨语言应用更加便捷高效。
🗣️ **显著提升的声音表现力:** 新模型在声音的自然度和表现力上有了大幅提升,能够生成更具情感和语气的语音。相比DragonV1,其单词错误率(WER)平均降低了12.8%,尤其在处理专有名词时,发音准确性得到了显著改善。
🔧 **精细的语音控制能力:** 用户可以通过SSML(Speech Synthesis Markup Language)音素标签以及自定义词典,对语音的发音、语调和口音进行精细化的控制和调整,满足不同场景下的个性化需求。
💡 **广泛的应用场景:** DragonV2.1模型可广泛应用于多种领域,例如为定制聊天机器人提供更具人情味的声音,为视频内容进行多语言配音,以及其他需要高质量语音合成的场景,为内容创作和人机交互带来更多可能性。
IT之家 7 月 31 日消息,科技媒体 NeoWin 今天(7 月 31 日)发布博文,报道称微软推出了 DragonV2.1Neural 零次学习(Zero-Shot Learning)模型,仅凭少量数据就能创建更加自然、表现力强的声音,并支持超过 100 种语言。
IT之家援引博文介绍,这是一种零次学习的文本到语音(TTS)模型,承诺提供更加自然和富有表现力的声音,并提高了发音的准确性以及增强了可控性。
新模型仅需几秒钟的语音样本即可合成超过 100 种语言的语音。相比之下,之前的 DragonV1 模型在处理专有名词时存在发音问题。DragonV2.1 模型可以应用于多种不同场景,包括定制聊天机器人声音和为视频内容跨多语言配音。
微软表示,DragonV2.1 提高发音准确性,与 DragonV1 相比,该模型单词错误率(WER)平均降低了 12.8%。


该模型还提升了声音的自然度,用户使用此模型时,可以利用 SSML 音素标签和自定义词典对发音和口音进行细致控制。为了帮助用户入门,微软构建了 Andrew、Ava 和 Brian 等多个声音档案,供用户测试。