字节跳动近日发布了其端到端同声传译模型Seed LiveInterpret 2.0,该模型在中英同传方面实现了接近人类水平的延迟和准确率。Seed LiveInterpret 2.0基于全双工端到端语音生成理解框架,能够实时处理多人语音输入,实现“边听边说”的低延迟翻译。其四大优势包括接近真人的翻译准确率(多人场景超70%,单人超80%)、极低的翻译延迟(2-3秒)、零样本声音复刻能力以及智能平衡翻译质量与输出节奏。模型在语音到文本同传任务中,平均翻译质量得分远超其他系统,在语音到语音任务中也达到了接近专业真人同传的水平,并且大部分竞品不支持声音复刻功能。
🚀 **接近人类水平的同传表现:** Seed LiveInterpret 2.0在中英同传领域实现了业界领先的翻译质量和极低的延迟。在复杂的多人会议场景下,中英双向翻译准确率超过70%,单人演讲翻译准确率更是达到80%以上,这与专业的人类同传译员水平相当。同时,其翻译延迟低至2-3秒,相比传统机器同传系统降低了超过60%,真正做到了“边听边说”。
👂🗣️ **全双工端到端与零样本声音复刻:** 该模型采用全双工端到端语音生成理解框架,使其能够像人类同传译员一样,在接收源语言语音的同时,直接输出目标语言的翻译语音,实现了无缝的实时沟通。更值得一提的是,它支持“零样本声音复刻”,只需采样实时语音信号,就能提取说话人的声音特征,用其原有的音色进行外语播报,极大地提升了沟通的自然度和流畅性。
⚖️ **智能平衡与多维度评估:** Seed LiveInterpret 2.0能够根据语音的清晰度、流畅度以及复杂程度,智能地调整翻译输出的节奏,并适配不同语言的特性,实现翻译质量、延迟和语音输出节奏的均衡。在模型测评中,其语音到文本同传任务的平均翻译质量得分远高于竞争对手,而在语音到语音任务中,不仅翻译质量表现优异,还能评估语音输出的时延、语速、发音和流畅性等综合指标,整体表现接近专业真人同传水平,且在声音复刻方面具有明显优势。
📈 **显著的性能提升:** 相较于传统机器同传系统,Seed LiveInterpret 2.0在多项关键指标上都实现了显著的提升。例如,在语音到文本同传任务中,其平均翻译质量的人类评分比排名第二的基准系统高出58%。在语音到语音任务中,其得分也远超其他基准系统,并且大多数基准系统不具备声音复刻功能,这表明Seed LiveInterpret 2.0在技术和用户体验上都具有显著的领先优势。
快科技7月24日消息,今日,字节跳动宣布正式发布端到端同声传译模型Seed LiveInterpret 2.0。
据介绍,这是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低语音延迟水平。
字节跳动表示,该模型基于全双工端到端语音生成理解框架,支持中英互译。
可实时处理多人语音输入,像人类同传译员一样以极低的延迟“边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。

同时,Seed LiveInterpret 2.0还支持0样本声音复刻,沟通更流畅自然。
不过,目前模型主要支持中英互译。
相比传统机器同传系统,Seed LiveInterpret 2.0具有以下四大优势:
接近真人同传的翻译准确率
在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,接近真人专业同传水平。
极低延迟的“边听边说”能力
翻译延迟可低至2-3秒,较传统机器同传系统降低超60%。
零样本声音复刻
只需采样实时语音信号,便能提取声音特征,用说话人的音色特质实时“说出”外语。
智能平衡翻译质量、延迟和语音输出节奏
根据语音清晰度、流畅度、复杂程度,调整输出节奏,并适配不同语言特性。
模型测评结果显示,在语音到文本同传任务中,Seed LiveInterpret 2.0中英互译平均翻译质量的人类评分达到74.8(评估译文准确率,满分100),较排名第二的基准系统(47.3分)超出58%。

在语音到语音任务中,业界仅3个翻译系统支持该能力,其中Seed LiveInterpret 2.0中英互译平均翻译质量达到66.3分(除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标,满分100),远超其他基准系统,达到接近专业真人同传的水平。
同时,大部分基准系统也不支持声音复刻功能。
在延迟表现上,Seed LiveInterpret 2.0在语音到文本场景中,输出首字平均延迟仅2.21秒,在语音到语音场景中,输出延时仅2.53秒,做到了对翻译质量以及时延的均衡。
