掘金 人工智能 17小时前
B站是如何实现原声视频翻译的
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Bilibili Index团队发布了一项突破性的原声视频翻译技术,能够将中文视频翻译成外语,并保持原声的音色、语气、节奏和个性。该技术解决了传统配音缺失声音人格、字幕带来的认知负担以及本地化成本高昂等问题。通过IndexTTS2模型,实现了跨语言的音色一致性、情绪迁移和语速控制,并创新性地运用了时间编码机制和音色情感解耦。同时,文章详细介绍了针对多说话人视频的精准分割技术,以及使用RIVAL对抗式强化学习框架和Deep Search技术解决翻译准确性、文化适配和专有名词翻译等难题。此外,技术还实现了字幕区域的精准定位擦除和基于音频驱动的高保真唇形同步,全面提升了跨语言视频的沉浸式观看体验。

🔊 **声音人格的精准还原**:BILIBILI IndexTTS2模型通过高精度音色克隆和声学空间属性保留,不仅能克隆说话人的音色,还能保留混响、麦克风距离等声学环境信息,以及多声源的时频结构,从而在跨语言翻译中实现对原声说话人身份特征、发声质感与语用风格的高度还原,避免了传统配音带来的“音色失真”和人格缺失问题。

🗣️ **跨语言情绪与语速的自然迁移**:针对跨语言场景下音色偏差、情绪量化控制难以及语速节奏差异大的挑战,BILIBILI IndexTTS2通过音色与情感解耦建模,支持分别指定音色和情感参考,并具备基于文本描述的情感控制能力。同时,创新的“时间编码”机制解决了语音时长控制难题,实现了跨语言节奏预测和信息压缩,确保了翻译后语音的自然流畅,有效解决了“听起来像是另一个人在说话”和“语速过快听不清”等问题。

👥 **多说话人场景的精确处理**:为解决多说话人视频中说话人频繁交替、短发言、低频发言人识别困难以及声纹差异小等问题,B站团队提出了一套创新的说话人分割方法。通过将语音流划分为小粒度语义片段进行说话人聚类,并引入低频说话人识别增强策略和升级的说话人特征模型,实现了在噪声背景下更准确的说话人区分,确保了后续翻译和音色合成的准确性,提升了多说话人场景下的还原度。

✍️ **翻译质量与文化适配的提升**:针对翻译准确性、完整性、流畅性以及UP主风格适配的挑战,文章介绍了RIVAL对抗式强化学习框架。该框架将语音时长适配、原生翻译标准和UP主风格适配融入定性与定量偏好奖励模型,通过动态博弈实现协同进化,显著提升了翻译模型的性能上限与泛化能力。同时,Deep Search深度挖掘技术通过实时网页检索和领域知识嵌入,有效解决了专有名词翻译的难题,实现了文化负载词的精准适配。

🎬 **视听信息的同步重建**:为解决翻译后音频与原视频画面中人物口型动作不匹配的问题,B站团队开发了基于Diffusion基座的高保真唇形同步技术。该技术通过3D VAE捕捉时序特征减少嘴唇抖动,并引入参考网络机制加强ID还原,确保生成的口型适配原人物面貌。同时,通过多模态内容理解大模型与OCR协同架构,实现了字幕区域的精准定位擦除和跨帧平滑,消除了原始字幕造成的语言混淆和视觉割裂感,实现了从语音到画面的端到端视觉对齐。

01|原声视频翻译背景介绍

大家好,我们是 BILIBILI Index 团队。

最近,我们上线了一个新能力:支持将部分中文视频翻译为外语的原声风格配音。也就是说,观众现在可以听到“这个人用另一种语言在说话”,但他的声音、语气、节奏,甚至个性表达都和原片几乎一致,不再是那种传统配音里千篇一律的“代言人声线”,而是像本人亲自讲外语一样自然。这背后,其实是一整套跨模态、多语言协同生成系统的能力升级。

这一系列技术探索的出发点,源于一个日益迫切的需求:随着视频内容全球化的深入,多语言传播已成为连接文化与社群的关键载体。观众不再满足于“听懂”,而是追求“真实感”与“在场感”——希望听到原声的情绪起伏、看到口型与语音的自然匹配;创作者也愈发意识到,声音不仅是信息的载体,更是人格表达与情感共鸣的核心媒介。

要实现真正沉浸式的跨语言体验,必须突破当前本地化流程中的关键限制,其中最具代表性的是以下三类挑战:

在本文中,我们将系统性地介绍该能力的技术架构与核心挑战,并分享我们在实践中如何逐步实现这些目标。

02|面向感知一致性的语音生成建模

传统TTS系统通常以语音自然度、可懂度和音色相似度为主要优化目标,缺乏对原始听觉场景的多维建模能力。而视频级语音翻译本质上是感知一致性重建,需协同建模三个关键维度:说话人身份特征声学空间属性,以及多声源时频结构,方能实现听觉体验的完整迁移。

2.1 一体化解决跨语言音色一致、情绪迁移难以及语速控制的问题

在真实的视频翻译场景中,想要实现一套完整且自然的“原声风格”翻译体验,仅仅将内容翻译成目标语言远远不够。我们真正要解决的,是在语音生成层面,跨语言地保留说话人的“声音个性”,并同时维持语气情绪的一致性和语速节奏的自然过渡。这背后隐藏着多个技术层面的挑战:

这些问题在原声翻译中常常不是孤立发生,而是交织叠加,互相放大。例如音色偏移会削弱情绪的传达能力,情绪错误又会进一步放大语速与节奏的突兀感,最终导致整段配音听起来“假”、“不自然”。

因此,我们在系统设计上,必须从前端建模、音色编码、跨语言对齐,到语速调控与声音合成,全流程协同建模、统一优化,才能真正实现原声风格的跨语言还原。

BILIBILI IndexTTS2模型架构

在 BILIBILI IndexTTS2 中,我们创新性地提出了一种通用于 AR 系统的“时间编码”机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计让我们在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。

BILIBILI IndexTTS2 引入了音色与情感解耦建模机制,处理支持单音频参考以外,额外支持分别指定音色参考与情感参考,实现更加灵活、细腻的语音合成控制。同时,模型还具备基于文本描述的情感控制能力,可通过自然语言描述、使用场景描述、上下文线索等进行精准调节合成语音的情绪色彩。

这种架构使得 BILIBILI IndexTTS2 在跨语言合成中具备了高度的表现力,无论何种语言系统都能够将原语音中人物的个性与情绪自然地注入到目标语言的语言中,实现保音色、保情感、保风格的高质量视听重建。

2.2 解决观看时多角色混淆问题

在原声翻译的实际场景中,多说话人是极为常见的情况。若仅用单一说话人进行重建,会极大降低还原度,破坏视频原有的交流氛围和角色关系。然而,若要保留多说话人信息,最核心的前提就是对说话人进行精准切分。一旦说话人分割出错,不仅会影响语义理解,后续的翻译与音色合成也将受到连锁影响,使得最终结果出现严重失真。

在实际处理多说话人视频时,说话人分割面临一系列复杂挑战。传统的 diarization 方法往往假设说话人交替有清晰边界、语音持续时间较长、语音信噪比可接受,但这些假设在真实的视频场景中往往并不成立。此外,以下这些地方也都是很明显的技术挑战:

这些挑战叠加在一起,使得说话人分割成为原声翻译流程中最容易“牵一发而动全身”的环节, 一旦分错,不仅语义理解会出错,后续翻译和音色合成也会随之受到误导,从而在最终结果中放大错误。

为此,我们提出了一套创新的说话人分割方法,专为原声翻译场景设计。

首先,我们将语音流按语义划分为多个小粒度语义片段,再以片段为单位进行说话人聚类,从根本上缓解边界模糊与重叠干扰问题;其次,在聚类层面引入了对低频说话人识别的增强策略,重新设计聚类算法的相似性约束,避免重要但稀有的发言被忽略或合并;此外,我们对基础的说话人特征模型进行了升级,采用端到端说话人训练机制,大幅提升了在噪声背景下的说话人区分能力,使模型能更准确地捕捉个体语音特征。使得在后续的声音重建过程中,通过自动匹配原视频的混响和空间声像,让多说话人语音自然地融入视频原有环境,增强空间感、临场感与真实感,最终呈现出更加一致、和谐的视听体验。

03|面向语音对齐的跨语言语义与文化适配建模

视频原声翻译面临的核心挑战,远不止“翻译准确”这么简单。相比传统文本翻译,原声翻译模型必须同时理解上下文、语义节奏和跨文化表达,才能实现真实可信的声音重构。

3.1 对抗式强化学习框架 RIVAL:显著提升翻译效果

在原声翻译的场景下,面临两大核心挑战:一是在精准控制语音节奏的同时,如何确保翻译的准确性、完整性与流畅性,以地道传神地传达视频内容;二是如何有效适配不同UP主风格,精准还原其个性特征,从而提升用户体验。

在应对这些挑战时,我们发现仅靠监督微调(SFT)存在泛化性局限,难以有效提升模型翻译能力;而常规强化学习(RL)则易受分布偏移影响,导致模型收敛困难。针对上述痛点,我们创新性地提出翻译领域的 RIVAL 对抗式强化学习训练框架。该框架将翻译优化过程建模为奖励模型(RM) 与大语言模型(LLM) 之间的动态博弈(min-max game),并通过双模型的迭代更新实现协同进化。

具体而言,RIVAL 框架将语音时长适配、原生翻译标准(准确性、完整性、流畅性等)以及 UP 主风格适配融入定性与定量结合的偏好奖励模型:

总结来看,RIVAL框架通过创新的对抗式强化学习机制,成功地将语音节奏控制、翻译质量保障(准确/完整/流畅)与个性化风格适配这三大核心挑战统一建模,利用定性与定量奖励信号的协同驱动,显著提升了翻译模型的性能上限与泛化能力,为高质量、高适配性的原声视频翻译开辟了新路径。

3.2 攻克专有名词与文化适配难题

专有名词翻译历来是翻译领域的难点。尽管大模型具备强大的知识储备与推理能力,但在处理专有名词时仍面临诸多挑战:领域知识整合效率低、低资源场景下模型偏见易放大、实时性需求与模型冻结状态相矛盾等,尤其在二次元、游戏等专有名词与“梗点”密集的领域。

为有效解决专有名词翻译的核心痛点,我们提出 Deep Search 深度挖掘技术方案。该方案针对难以翻译的专有名词案例,通过生成查询(query)→ 实时网页检索 → 总结翻译的流程,动态获取精准译文。同时,结合领域知识的实时嵌入,显著提升专有名词翻译的准确性。

04|面向音画对齐的视频信息重建

在完成音频层面的感知一致性重建后,系统需进一步解决视听模态间的时间对齐与空间一致性问题。视频翻译中的语音替换打破了原始音画耦合关系,若不进行联合建模,将引入显著的跨模态失配。为此,我们形式化两个关键子任务:字幕区域的语义-视觉解耦重建音频驱动的唇形时序生成,实现从语音到画面的端到端视觉对齐。

4.1 消除原始字幕

翻译后的音频在时间轴上与原视频字幕完全脱节,保留原字幕会造成严重的语言混淆和视觉割裂感,我们需要做到精准地消除原字幕。核心需要解决两大问题:一是精准识别与区分,需要将画面中所有字幕区域无遗漏、无错判地定位出来,这在字幕与背景文字、水印、图标等干扰信息混合时尤其困难;二是尽可能确保帧间的一致性,避免由于相邻帧的不一致而出现的字幕闪现,严重影响观看体验。

针对这些难点,我们设计了一套多模态感知与跨帧协同的技术方案。首先,在单帧字幕感知方面,构建了异构模型协同架构,深度融合多模态大模型在语义理解与内容分类上的高阶认知能力与传统OCR模型在空间定位上的像素级精度优势。 并针对出海内容场景特性,进一步实施了基于领域知识的Prompt优化,实现了字幕与非字幕文字区域的精准区分。其次,为提高帧间一致性,对擦除区域进行了三个维度的跨帧平滑:分别是OCR的位置结果与大模型字幕识别的跨帧匹配、大模型字幕识别不匹配OCR位置时的跨帧位置推断,以及短暂区间未检测到字幕区域时的补全。

4.2 口型对齐

在原声翻译链路中,口型驱动的技术则是基于生成模型开发的。整体流程为输入下半张脸mask的视频、参考视频以及音频,基于音频生成相对应的更换口型的视频。在B站自研的技术方案中,视频编解码器采用3D VAE来提供更强的时序特征,可以减少嘴唇、牙齿的抖动;增加了参考网络用来加强ID的生成能力,可以生成高保真的唇形同步片段。此外,基于diffusion的基座能力,整体生成效果对于大角度、遮挡的鲁棒性更好,可扩展性也更强。

翻译后的音频与视频中人物原有的口型动作会出现不同步的现象,这种视听割裂感会极大分散观众注意力,破坏真实感和沉浸感。高度同步的口型驱动技术面临几个核心难点:一是身份的保持,在改变口型的同时,必须严格保持说话人的身份特征(ID),确保生成的下半脸看起来仍然是原人物;二是动态鲁棒性,需要处理各类复杂内容情况(e.g. 头部大角度转动、遮挡、频繁切镜)下的稳定口型生成。

因此,我们采用Diffusion模型作为生成基座,开发了高保真、强鲁棒的口型驱动技术。在人脸编码部分,使用 3D VAE更好地捕捉视频的时序特征进行建模,显著减少了嘴唇变色、牙齿抖动的难点。同时,引入参考网络 (Reference Network) 机制,学习提取并注入原始人物面部的身份特征信息,确保生成画面严格匹配原人物特征,视觉上自然真实。此外,diffusion的基座能力在处理头部转动、遮挡等复杂场景时表现稳定,可扩展性也更强。

05|结语

如今,内容的跨语言传播正日益与个体表达深度融合。从观众自发的字幕协作,到创作者对多语言表达的主动探索,人们不再满足于单纯的语言转换,而是更加关注声音背后的真实语调、情感特质与文化语境。一种强调语言多样性与表达原真性的创作趋势正在显现——声音本身,正成为意义的一部分。

然而,在迈向全球传播的过程中,我们也必须正视现实挑战:传统配音在解决语言障碍的同时,也在无形中抹去了声音个性与文化基因;字幕虽是信息桥梁,却常常成为认知干扰源,削弱沉浸体验与艺术表达;而高昂的本地化成本,则成为中小创作者难以跨越的门槛,限制了内容出海的可能性。面对这些问题,技术正在成为关键的破局者。未来的原声翻译系统,不仅要实现语言层面的精准转换,更要做到声音个性的保留、情绪张力的还原、文化语境的适配。

为了更好地覆盖多样化内容生态,我们在面向UGC场景时,关注创作者和消费者的需求,未来将支持更多语言,助力全球多语言交流。同时,针对PGC场景,我们设计了更加严谨和可控的工作流程与技术方案,保障高质量、多语言、跨模态的视听语言迁移体验,实现内容的专业呈现与高效制作。我们也计划将BILIBILI IndexTTS2模型开源,期待推动整个行业技术进步,欢迎大家持续关注与使用!

我们正站在一个内容无界、声音有温度的新起点。当技术不再只是工具,而是成为表达的一部分,我们才真正迎来一个既听得懂语言、也听得见灵魂的全球内容生态。也欢迎更多 AI 研究者、内容创作者、产品开发者与我们一起打磨这项技术。

体验地址: m.bilibili.com/topic-detai…

本文参考:

[2506.21619] IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech(*arxiv.org/abs/2506.21…

[2506.05070] RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation(*arxiv.org/abs/2506.05…

-End-

作者丨Index团队

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

原声视频翻译 AI语音合成 跨语言传播 Bilibili Index 多模态技术
相关文章