智东西7月24日报道,今日,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0。
这是首个在翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。
在中英互译任务中,Seed LiveInterpret 2.0已达到业界最优水平(SOTA),其译文质量、响应速度与音色还原能力,在多项主客观评测中均表现突出。
该系统采用全双工语音理解与生成框架,支持“边听边说”的实时传译,语音延迟最低可至2到3秒。同时,它具备0样本声音复刻能力,无需预录音,即可用说话者的音色“说出”外语。
当前,Seed LiveInterpret 2.0已通过火山引擎开放试用,用户可登录控制台体验语音模型“Doubao-同声传译2.0”。
此外,Ola Friend耳机也计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备。
技术报告与体验指路:
技术报告:
http://arxiv.org/pdf/2507.17527
项目主页:
https://seed.bytedance.com/seed_liveinterpret
体验链接:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI
01.
全双工语音生成框架
实现真正“边听边说”
字节Seed团队曾在2024年推出初代模型CLASI,解决了文本同传的时延与专业性问题,但仍不支持语音输出。
时隔一年,团队在模型结构、语音生成与训练策略上持续优化,最终推出Seed LiveInterpret 2.0,首次实现“边听边说”的语音到语音同传。
Seed LiveInterpret 2.0引入了双通路(duplex)语音理解与生成架构,这一端到端方案减少了中间环节,在处理效率和翻译准确率上表现更优。系统能边接收源语言语音输入,边生成目标语言语音输出,且可实时处理多人说话场景。
Seed LiveInterpret 2.0的双通路(duplex)语音理解与生成架构(图源:字节跳动Seed)
尤其值得注意的是,相比传统同传系统需等待语音识别完成再生成译文,Seed LiveInterpret 2.0可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出(FLAL),显著接近人类同传表现。
图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在翻译质量与延迟表现上的对比。(图源:技术报告)
实测结果显示,其语音翻译延迟可低至2到3秒,相比传统机器同传系统平均减少了超过60%的等待时间,实现真正的“边听边说”。
02.
强化学习上场
翻译更智能、延迟再压缩
尽管早期版本Seed LiveInterpret 1.0在文本同传已有不俗表现,但如何兼顾音频输出的节奏感与准确度,始终是AI同传系统的关键难题。
为此,字节Seed团队引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化。
据技术报告描述,团队设计了融合单步反馈与全局反馈的双重奖励机制,分别用于保障片段级语义一致性和整体译文的逻辑连贯性。
在训练方法上,团队采用了两阶段流程:先通过单步奖励预热模型,学习人类译员的翻译策略,再利用全局奖励机制优化模型对整体语义与响应延迟的控制。
这一机制显著降低了模型生成输出的滞后时间。如在长文本中译英任务中,经过RL优化后的Seed LiveInterpret 2.0将语音输出延迟从3.90秒降至2.37秒,翻译质量得分也从75.1提升至79.5。
图为RealSI长文本同传基准下的系统性能对比(图源:技术报告)
模型还具备自适应节奏控制能力,能够根据语音输入的清晰度与表达节奏,智能调整输出时机与语速。
在长时间演讲等场景中,系统会主动保持译文与源语的节奏一致,避免“跟不上讲话节奏”或“提前结束”等不同步问题。
03.
0样本声音复刻,译音既准又像“你”
Seed LiveInterpret 2.0引入“0样本声音复刻”能力,只需实时采样对话语音,系统便能学习并克隆用户的音色特征,以“原声”输出目标语种译文。这一能力在真实会议、演讲、跨语种沟通中极具实用价值,不仅降低理解门槛,也增强语义情绪的传达。
在多轮语音评测中,Seed LiveInterpret 2.0是唯一支持“中英双向语音到语音同传+声音克隆”的系统,其SVIP(语音译文有效信息比例)在zh-en方向达到67.8,在en-zh方向达到64.7,音质、节奏、语调高度拟人。
图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在SVIP(语音译文有效信息比例)上的对比。(图源:技术报告)
得益于Seed LiveInterpret 2.0的声音复刻能力,用户在与不同语言背景的人交流时,依然能用自己的音色输出外语译文,在提升识别度的同时,也增强了交流的亲和力。
智东西第一时间进行了试用,在“同声传译”的过程中,系统对英文语音的翻译响应较快,音色复刻也具备一定相似度,能听出说话者的语气。
但整体仍存在一定延时感,特别在语速变化或语句较长时更为明显。
04.
专业评测验证:翻译准确率达74.8分
为评估系统性能,字节Seed团队基于中英双向RealSI标准数据集,邀请专业同传译员团队进行人工打分。
结果显示,在语音到语音翻译任务中,其译音质量得分达66.3,显著超过同类系统。在语音到文本的中英互译任务中,Seed LiveInterpret 2.0的平均翻译质量得分为74.8(满分100),相比第二名系统高出58%。
图示为语音到文本(S2T)和语音到语音(S2S)同传任务中,人工评测的翻译质量与响应效率结果。其中部分商业翻译系统以字母代称。(图源:字节跳动Seed)
同时,在延迟方面,语音到文本场景中平均输出首字延迟仅为2.21秒,语音到语音场景延迟为2.53秒,展现了质量与速度的良好平衡。
系统在BLEURT、COMET等客观翻译指标上同样表现领先,且为唯一支持“声音复刻”的评测系统。
在标准化测试中,Seed LiveInterpret 2.0在中译英(zh-en)与英译中(en-zh)任务中均取得了最高的BLEURT和COMET得分,同时在延迟指标AL(Average Lagging)、LAAL和FLAL上展现出良好平衡。
尤其在语音到语音(S2S)任务中,Seed LiveInterpret 2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL达成最低延迟,整体表现领先同类系统。
图示为客观测评集的测评成绩,由于业界适合同传场景的高质量公开测试数据较少,字节Seed团队整合了公开数据与内部数据集进行测试。(图源:字节跳动Seed)
05.
结语:语言不再隔阂
AI真正走上同传舞台
从延迟、译准率到音色复刻,Seed LiveInterpret 2.0已让AI在同传这条“最难登顶”的语言技术路径上迈出了关键一步。技术侧依托多模态训练与强化学习策略,产品层面则已具备跨语言实时演讲、跨境会议、教育直播等落地能力。
尽管目前仍仅支持中英互译,但这套端到端同传框架的可扩展性,为后续多语种拓展、情绪模仿和更多交互形式的翻译任务奠定了基础。
当“听懂你说什么”与“像你说出来”同时成为可能,语言AI正在告别辅助工具的角色,真正走向人与人沟通的前台舞台。
本文来自微信公众号“智东西”,作者:江宇,编辑:漠影,36氪经授权发布。