36kr-科技 前天 18:13
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动Seed团队近日推出了Seed LiveInterpret 2.0,这是首个在翻译准确率、语音延迟和声音复刻三方面均逼近专业同传表现的产品级中英语音同传系统。该系统采用全双工语音理解与生成框架,支持“边听边说”,语音延迟最低可达2到3秒,并具备0样本声音复刻能力,能以说话者音色输出外语译文。Seed LiveInterpret 2.0已在火山引擎开放试用,并将接入Ola Friend耳机,标志着AI同传技术在准确性、实时性和个性化方面取得了显著突破,为跨语言沟通带来了更自然、高效的解决方案。

✨ **端到端同声传译新突破**:Seed LiveInterpret 2.0是字节跳动Seed团队推出的最新一代中英语音同传系统,其核心亮点在于首次在翻译准确率、语音延迟和声音复刻三个关键维度上全面逼近专业同传水平。该系统采用全双工语音理解与生成框架,能够实现真正的“边听边说”,即在接收源语言语音的同时,即可生成目标语言语音输出,显著提升了实时传译的效率和流畅度。

🚀 **极致低延迟与实时响应**:Seed LiveInterpret 2.0通过创新的双通路(duplex)语音理解与生成架构,将语音延迟最低压缩至2到3秒,相比传统机器同传系统,平均减少了超过60%的等待时间。这种“即时翻译”的特性,使得AI同传在长文本或多人说话的复杂场景下,也能保持与人类同传相近的响应速度,有效避免了信息滞后问题。

🗣️ **0样本声音复刻,个性化传译**:该系统的一大创新在于其“0样本声音复刻”能力,无需预先录制,即可实时采样并学习说话者的音色特征,并用其原声输出外语译文。这不仅降低了跨语言沟通的理解门槛,更在情感和语气的传达上更具亲和力,使得AI翻译能够保留用户的个人特色,增强交流的真实感和辨识度。

📈 **强化学习优化,智能调控**:为了进一步提升翻译的智能性和节奏感,Seed团队引入了强化学习机制,通过融合单步反馈与全局反馈的双重奖励,联合优化了延迟、译文准确率和节奏控制。这使得模型能够自适应地根据语音输入的清晰度和表达节奏调整输出时机与语速,确保译文的逻辑连贯性和同步性,特别是在长时间演讲等场景下表现尤为突出。

🏆 **专业评测验证,多维度领先**:Seed LiveInterpret 2.0在多项主客观评测中均表现出色。人工评测显示,其译音质量和语音到文本的翻译质量得分均显著领先于同类系统。在客观指标上,如BLEURT和COMET,该系统也取得了行业最优成绩,并在延迟指标上实现了优异的平衡,证明了其在技术实力上的领先地位。

智东西7月24日报道,今日,字节跳动Seed团队正式推出端到端同声传译模型Seed LiveInterpret 2.0

这是首个翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。

在中英互译任务中,Seed LiveInterpret 2.0已达到业界最优水平(SOTA),其译文质量、响应速度与音色还原能力,在多项主客观评测中均表现突出。

该系统采用全双工语音理解与生成框架,支持“边听边说”的实时传译语音延迟最低可至2到3秒。同时,它具备0样本声音复刻能力,无需预录音,即可用说话者的音色“说出”外语。

当前,Seed LiveInterpret 2.0已通过火山引擎开放试用,用户可登录控制台体验语音模型“Doubao-同声传译2.0”。

此外,Ola Friend耳机也计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备。

技术报告与体验指路:

技术报告:

http://arxiv.org/pdf/2507.17527

项目主页:

https://seed.bytedance.com/seed_liveinterpret

体验链接:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI

01.

全双工语音生成框架

实现真正“边听边说”

字节Seed团队曾在2024年推出初代模型CLASI,解决了文本同传的时延与专业性问题,但仍不支持语音输出

时隔一年,团队在模型结构、语音生成与训练策略上持续优化,最终推出Seed LiveInterpret 2.0,首次实现“边听边说”的语音到语音同传。

Seed LiveInterpret 2.0引入了双通路(duplex)语音理解与生成架构,这一端到端方案减少了中间环节,在处理效率和翻译准确率上表现更优。系统能边接收源语言语音输入,边生成目标语言语音输出,且可实时处理多人说话场景

Seed LiveInterpret 2.0的双通路(duplex)语音理解与生成架构(图源:字节跳动Seed)

尤其值得注意的是,相比传统同传系统需等待语音识别完成再生成译文,Seed LiveInterpret 2.0可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出(FLAL),显著接近人类同传表现。

图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在翻译质量与延迟表现上的对比。(图源:技术报告)

实测结果显示,其语音翻译延迟可低至2到3秒,相比传统机器同传系统平均减少了超过60%的等待时间,实现真正的“边听边说”。

02.

强化学习上场

翻译更智能、延迟再压缩

尽管早期版本Seed LiveInterpret 1.0在文本同传已有不俗表现,但如何兼顾音频输出的节奏感与准确度,始终是AI同传系统的关键难题。

为此,字节Seed团队引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化。

据技术报告描述,团队设计了融合单步反馈与全局反馈的双重奖励机制,分别用于保障片段级语义一致性和整体译文的逻辑连贯性。

在训练方法上,团队采用了两阶段流程:先通过单步奖励预热模型,学习人类译员的翻译策略,再利用全局奖励机制优化模型对整体语义与响应延迟的控制。

这一机制显著降低了模型生成输出的滞后时间。如在长文本中译英任务中,经过RL优化后的Seed LiveInterpret 2.0将语音输出延迟从3.90秒降至2.37秒翻译质量得分也从75.1提升至79.5

图为RealSI长文本同传基准下的系统性能对比(图源:技术报告)

模型还具备自适应节奏控制能力,能够根据语音输入的清晰度与表达节奏,智能调整输出时机与语速。

在长时间演讲等场景中,系统会主动保持译文与源语的节奏一致,避免“跟不上讲话节奏”或“提前结束”等不同步问题。

03.

0样本声音复刻,译音既准又像“你”

Seed LiveInterpret 2.0引入“0样本声音复刻”能力,只需实时采样对话语音,系统便能学习并克隆用户的音色特征,以“原声”输出目标语种译文。这一能力在真实会议、演讲、跨语种沟通中极具实用价值,不仅降低理解门槛,也增强语义情绪的传达。

在多轮语音评测中,Seed LiveInterpret 2.0是唯一支持“中英双向语音到语音同传+声音克隆”的系统,其SVIP(语音译文有效信息比例)在zh-en方向达到67.8在en-zh方向达到64.7,音质、节奏、语调高度拟人。

图为语音到语音同传任务中,Seed LiveInterpret 2.0与主流系统在SVIP(语音译文有效信息比例)上的对比。(图源:技术报告)

得益于Seed LiveInterpret 2.0的声音复刻能力,用户在与不同语言背景的人交流时,依然能用自己的音色输出外语译文,在提升识别度的同时,也增强了交流的亲和力。

智东西第一时间进行了试用,在“同声传译”的过程中,系统对英文语音的翻译响应较快,音色复刻也具备一定相似度,能听出说话者的语气。

但整体仍存在一定延时感,特别在语速变化或语句较长时更为明显。

04.

专业评测验证:翻译准确率达74.8分

为评估系统性能,字节Seed团队基于中英双向RealSI标准数据集,邀请专业同传译员团队进行人工打分。

结果显示,在语音到语音翻译任务中,其译音质量得分达66.3,显著超过同类系统。在语音到文本的中英互译任务中,Seed LiveInterpret 2.0的平均翻译质量得分为74.8(满分100),相比第二名系统高出58%

图示为语音到文本(S2T)和语音到语音(S2S)同传任务中,人工评测的翻译质量与响应效率结果。其中部分商业翻译系统以字母代称。(图源:字节跳动Seed)

同时,在延迟方面,语音到文本场景中平均输出首字延迟仅为2.21秒,语音到语音场景延迟为2.53秒,展现了质量与速度的良好平衡。

系统在BLEURT、COMET等客观翻译指标上同样表现领先,且为唯一支持“声音复刻”的评测系统。

在标准化测试中,Seed LiveInterpret 2.0在中译英(zh-en)与英译中(en-zh)任务中均取得了最高的BLEURT和COMET得分,同时在延迟指标AL(Average Lagging)、LAAL和FLAL上展现出良好平衡。

尤其在语音到语音(S2S)任务中,Seed LiveInterpret 2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL达成最低延迟,整体表现领先同类系统。

图示为客观测评集的测评成绩,由于业界适合同传场景的高质量公开测试数据较少,字节Seed团队整合了公开数据与内部数据集进行测试。(图源:字节跳动Seed)

05.

结语:语言不再隔阂

AI真正走上同传舞台

从延迟、译准率到音色复刻,Seed LiveInterpret 2.0已让AI在同传这条“最难登顶”的语言技术路径上迈出了关键一步。技术侧依托多模态训练与强化学习策略,产品层面则已具备跨语言实时演讲、跨境会议、教育直播等落地能力。

尽管目前仍仅支持中英互译,但这套端到端同传框架的可扩展性,为后续多语种拓展、情绪模仿和更多交互形式的翻译任务奠定了基础。

当“听懂你说什么”与“像你说出来”同时成为可能,语言AI正在告别辅助工具的角色,真正走向人与人沟通的前台舞台。

本文来自微信公众号“智东西”,作者:江宇,编辑:漠影,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Seed LiveInterpret 2.0 AI同声传译 语音识别 语音合成 字节跳动
相关文章