科大讯飞研究院 04月09日 17:51
聚焦“流式意群”,星火语音同传大模型怎样做到又快又好?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

讯飞发布了首个具有端到端同声传译能力的星火语音同传大模型,旨在解决机器同传中时延与翻译质量的平衡问题。该模型通过模拟人类同传译员的思维链路,实现了语音到文本的流式翻译,并结合流式语音合成技术,确保翻译的连贯性和准确性。与国外交传系统相比,星火语音同传大模型在内容完整度、信息准确度和语言表达质量上均有超越,并支持不同的时延模式,为跨语言沟通提供了更高效、便捷的解决方案。

🗣️ 星火语音同传大模型采用端到端设计,能够不打断发言者,近乎同步地将语音翻译成另一种语言并播报,解决了传统机器同传中时延与翻译质量难以兼顾的问题。

🧠 该模型模仿人类同传译员的思维流程,进行实时意群切分、上下文语境理解和碎片化信息重组,从而提升翻译的准确性和流畅性。

🔄 模型训练过程中,采用了“预训练-语音翻译任务训练-同传专业数据SFT+强化学习训练”的方式,并构建了历史信息记忆机制和翻译信息检索功能,确保翻译的专业性和准确性。

🎤 在流式语音合成方面,该模型可以根据源语种和翻译语种的时长差异,实时调整译文的精炼度,确保翻译的节奏感和自然度。

🏆 与国外交传系统相比,星火语音同传大模型在内容完整度、信息准确度和语言表达质量上均有超越,并在日常对话、医疗等专业领域带来讯飞全系翻译产品效果的升级。

原创 iFLYTEK RESEARCH 2025-01-22 16:51 安徽

春节将至,不论是假期去国外旅行,还是新的一年开拓海外市场和业务,甚至最近中美网友展开的热烈跨洋对话……这一切背后都少不了一个关键词:翻译

1月15日,我们发布了首个具有端到端同声传译能力的大模型,星火语音同传大模型。简单来说,就是能不打断发言者讲话,几乎同步将发言内容翻译成另外一种语言后,用语音播报出来。

在机器同传技术已经较为普及的当下,为什么还要做语音同传大模型?这其中的关键难点又在哪里?星火语音同传大模型又是如何构建的?我们将一一为您展开解读。


语音同传大模型的考核标准和必备素质

近年来,机器同传已经逐渐被大家熟悉,各类活动、大会上会配备的同传大屏,不仅能够及时识别转写演讲人发言内容,还能实时翻译成不同语种文字展现出来。机器同传小模型虽然带来了更多沟通便利,但为了尽可能减少时延、保持同步,翻译的质量和可读性被相对降低了。

根据口译界的评价维度和要求,同声传译的产出质量要考量内容完整度、信息准确度、语言质量和沟通效果:确保信息完整可靠,内容精准且表达合适,表达规范和习惯要与目标语言契合,最后一点沟通效果对于机器同传来说,就是时延

时延包括首响和尾响要跟上源语言发言者的节奏,确保信息传递及时、连贯,会直接关系到听众的感受。如何做好时延和其他三个标准的平衡,是机器同传面临的最大挑战

一个合格的人类同传译员,不仅要有出色的双语能力,还要有很强的记忆力、过关的心理素质,同时也需要了解各行业的相关知识和最新信息,这些也同样是机器同传需要具备的素质。

大模型则为机器同传提供了新可能。在文本到文本的机器翻译任务上,大模型取得了令人惊喜的成绩,其理解能力和生成能力使得机器翻译更加尊重语言文化背景和原文的潜在含义,译文表达更加地道。同时在机器同传上,大模型对于人类同传译员的学习能力,让其像人一样能在时延与翻译质量的博弈中找到一个更好的平衡点。


星火语音同传大模型技术解读

讯飞在机器翻译方面积累深厚。早在2018年,我们的机器翻译系统参加了CATTI全国翻译专业资格(水平)科研测试,达到了专业译员水平,此后又连续3届获得国际口语机器翻译会议IWSLT冠军;我们作为第一单位完成并获得2023年国家科学技术进步奖一等奖的“多语种智能语音关键技术及关键化”项目中,也有机器翻译的一席之地。

基于智能语音、机器翻译技术上的独特算法积累,加之讯飞星火大模型底座,我们打造出了端到端的星火语音同传大模型

技术方案总览

星火语音同传大模型模仿了人类同传译员的思维链路来进行训练。在听到发声之后,同传大模型进行实时的意群理解和切分,结合上下文语境精准选词,并进行碎片化信息的重组;

完成翻译内容的输出后,再通过流式语音合成技术进行意群韵律衔接,并根据源语速自适应的调节合成语速;

此外,根据源语种和翻译语种的时长差距会向大模型反馈信息,还能实时调整译文的精炼度,最终形成流畅闭环。

需要解释一下“意群”这个关键词——意群是语音学研究的内容,是由单词组成的表意单位,也是句子中按意思和结构划分出的各个成分。简单来说,读句子时会在意群和意群中间停顿,同一个意群内的字词关系紧密、不能随意拆分。

PART 1  语音到文本端到端翻译

上图是语音同传大模型中语音到文本的翻译方案,其中的关键问题包含

我们采取了“预训练-语音翻译任务训练-同传专业数据SFT+强化学习训练”的方式进行训练。

预训练阶段,基于星火大模型强化文本翻译任务,同时训练语音识别任务,取训练好的语音编码器;

语音翻译训练阶段,采取了大量合成音频等数据来训练,使得大模型具备语音到文本的翻译能力。

值得一提的是,模型训练过程中需要意群切分和同传边听边译的数据,这类需要专业同传译员标注的数据非常稀缺。

为了让模型真正具备同传那样流式翻译和顺序翻译的能力,我们自己标注和构建了人工同传精标数据,按照人类同传译员习惯,边听边做意群切分和翻译,并提取信息进行重组:

例如有这样一句话:I went to iFLYTEK for a seminar at 10 o'clock yesterday.

所以,在机器按意群直译之后,大模型的生成能力可以对实时信息做重组,包括润色、解释等,让边听边译的结果更加好理解、地道顺耳,就像人类同传译员工作中的“顺句驱动原则”。

因此同传专业数据SFT阶段,我们通过这些精标的数据进行微调,并构建同传译员思维链路的提示信息,采取数据驱动的方式引导模型按照同传方式输出译文。

强化学习阶段,根据上述同传标准构建了同传翻译数据评分体系和评分模型,用以引导模型学习人类同传译员的翻译习惯。

在这一部分中,我们也充分考虑了机器同传最大的挑战——时延与翻译质量的平衡。在意群切分阶段,我们设置了不同的延时模式,延时越长、翻译效果越好;最终测试中,我们保证了语音到语音最短5s左右时延,翻译质量也能做到非常优秀

在语音到文本的端到端翻译中,我们还加入了历史信息记忆机制和翻译信息的检索,帮助翻译内容更加符合上下文情境,也更加合理、专业、准确。

在语音翻译过程中,所谓的“流式意群”中的“流式”,指的是语音内容一直进行不断,仿佛流水一样流淌,自然也有流动不断的上下文信息。

我们构建了历史信息记忆机制,包含语音编码输入、检索信息、译文输出、加载历史、更新历史5个操作。语音输入后,将会结合检索信息、记忆存储中的历史语音信息和翻译信息进行翻译,完成后,将当前的翻译结果更新记忆存储,变成历史信息。如此循环,系统整个过程运行丝滑。

尽管大模型已经实现了足够的领域覆盖,但是总有个性化或者具有时效性的翻译会有遗漏。

我们也在模型中加入了具备基于语音的信息检索增强能力,构建了如互联网新词、医疗、新能源、汽车等领域的翻译检索信息,让模型在翻译过程结合专业名词与最新信息,根据上下文语境进行合理的译文表达。

PART 2 流式合成

在完成了语音到文本的端到端翻译之后,翻译的内容还需要语音合成之后再播放,因此流式合成也是星火语音同传大模型另一个重要的模块。

在训练中,先训练好语音到文本的翻译后,进行冻结;再训流式合成模块,支持文本按照意群块输入,也就是说送入流式合成当中的不一定是完整的句子,有可能是几个词语的组合。

相比于非流式合成可能会在合成中导致单个字词之间断开,流式合成则会根据上文中字词和句子的具体情况来决定后面怎样合成,进行意群韵律的衔接,还能传递原说话人的语速、韵律等信息,根据源语种自适应来调节合成语速

在机器同传过程中,源语种和翻译语种的语句长度往往也不一样,导致在同传时会对不上节奏。我们设计的流式语音合成会根据源语种和翻译语种的时长差距,向大模型反馈信息,进行译文长度反向调控,实时调整译文精炼度。

PART 3 星火语音同传大模型效果对比评价

目前国外相关主流大模型仍以交传为主,即说话者说完一段话后译员再进行翻译的模式,交传模式能够充分利用整句信息进行翻译;且这些模型仅有语音到文本的离线翻译模式,不涉及语音合成。

我们将星火语音同传大模型与国外交传系统进行对比,在中英同传的内容完整度、信息准确度和语言表达质量几个维度上均实现超越,还能支持不同的时延模式。

研发语音同传大模型的过程中,还反哺了文本翻译、语音到文本翻译的能力水平实现持续提升,在日常对话、医疗等专业领域,也带来讯飞全系翻译产品效果的升级和体验的进阶。未来,讯飞翻译机还将会配置耳机、音箱、麦克风,在今年推出商务套装,满足不同商务洽谈场景使用

目前讯飞同传也限量开放了星火语音同传大模型的功能入口,可扫描或长按识别下方二维码体验测试↓

未来,我们还将陆续和大家同步分享关于源语种语目标语种在翻译文本等时性方面,以及进一步的译文声音复刻等方案的研究进展与成果。新的一年,讯飞研究院也祝各位“蛇”我其谁,“巳”如破竹!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

星火语音同传大模型 机器同传 语音翻译 人工智能
相关文章