夕小瑶科技说 04月05日 20:52
百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入解读了百度在AI DAY上发布的文小言语音大模型的核心技术,该模型在语音对话的延迟、成本和情感表达方面取得了显著突破。通过端到端建模、EALLQA注意力机制、MoE架构和流式逐字处理等创新技术,文小言实现了1秒左右的反应速度、低成本高并发,以及17种情感的超自然语音对话体验,为语音技术的发展提供了重要参考。

⏱️**延迟优化:** 百度采用了端到端语音语言大模型,将语音识别、LLM理解生成、语音合成整合到一个模型中,减少了信息传递损耗,并通过EALLQA(高效全查询注意力)技术改进了Cross-Attention机制,解决了传统语音对话产品反应慢的问题,实现了1秒左右的延迟。

💰**成本与并发:** 百度通过流式逐字处理和MoE(混合专家)架构降低了语音大模型的成本,使得在廉价显卡上也能实现数百并发。流式逐字处理使得系统可以同时服务大量用户,MoE架构则通过激活少量参数的专家小分队来降低成本,最高可降低90%。

😊**情感与自然度:** 端到端语音语言大模型和流式逐字处理技术使得文小言能够生成更自然的语音。大模型在生成回答内容的同时,就考虑了语气、停顿和情感等信息,并基于大规模数据训练,可以根据上下文实时生成带有饱满情感的语音,支持多达17种情感表达。

原创 夕小瑶编辑部 2025-04-01 17:51 四川

大家好,我是小瑶,今天是你们的 AI 前排吃瓜 + 技术解读博主。

昨天人在百度科技园,参加了百度 AI DAY 活动,不仅吃到了「文小言」的一手大瓜,还非常荣幸的采访到了语音技术大牛——百度语音首席架构师贾磊老师!

在现场时,我感觉脑子 CPU 都要干烧了,给你们看一张现场 PPT——

技术大牛贾磊老师,现场硬核拆解语音大模型,更重要的是,拆的是这次文小言全新升级的语音语言大模型背后的核心技术。

这让我的技术基因止不住的躁动起来了,瞬间有一种参加 ICASSP 语音学术顶会的错觉。

先带你们一手感受下文小言最新的实时语音通话——

从测试一开始,我就在无情的、疯狂的打断文小言的讲话,我试图让整个对话变得支离破碎,但在这个情况下,文小言都能在我插嘴 1 秒左右反应过来,流畅转变,聪明如人。不过,这要换成真人,被我这样打断,对方早就炸毛了。

要知道,市面上的语音通话产品,普遍 3~5 秒的反应延迟,文小言这反应速度 + 对话的顺畅程度,真的爽到我了。

而且实测下来,我发现更新后的文小言不止实时打断 + 反应速度非常牛逼,其在情感、方言、记忆、知识方面也都可圈可点。

但,今天这篇文章,我不准备写产品评测,大家可以升级「文小言 APP」到最新版后自行感受。

因为,这次百度 AI DAY 上,贾磊老师公开并深入拆解了这个惊艳的语音大模型背后的技术实现,这对于推动业界的语音技术进步,有非常重要的参考意义。

延迟:语音对话模型的第一技术命题

语音对话这个赛道,与文本对话相比有根本性的不同。

在文本对话的场景,用户对于等待回复的容忍度比较高。但,你跟一个人说话的时候,如果对方总是先卡顿个 3、5 秒才说话,你肯定心里不愿意再说了。

还有人类看东西,往往一目十行,但听东西,是一个字一个字的接收。

所以,看一家厂商的语音对话技术牛不牛,第一个要关注的指标,就是看对方多快吐出第一个字。

业界普遍能做到的水平是 3~5 秒,而能做到 1 秒左右的,一只手就能数得过来,包括这次百度发布的全新语音大模型。

百度的端到端语音语言建模方案

对于语音对话来说,最简单的建模方案就是——

    ASR: 先把你的语音识别成文字。
    LLM: 把文字交给大语言模型去理解,生成回答的文字。
    TTS: 再把回答的文字转换成语音播放出来。

这种工程化的模块级联方案,不仅会导致信息在传递中多级损耗,导致效果差,而且多环节积累起来的延迟、成本也会爆炸。市面上仍然有不少语音对话产品,走的是这种传统的技术方案。所以你能感受到的就是对方“又慢又笨”。

百度这里则是训出了一个端到端的语音语言大模型,把原本独立的语音识别、LLM 理解生成、语音合成给直接编码到了一个模型里——

这个端到端的语音语言大模型采用了 MoE 架构,是基于成熟的文心一言预训练模型冷启,采用自蒸馏、多模数据混合的方式 post-train 训练出来的。

这里非常关键的是,百度这里竟然用了 Cross-Attention 这个我本以为已经被历史遗忘的注意力机制。

通过它,巧妙的将大模型的 Encoder 与语音识别进行融合,然后将 Decoder 与语音合成进行融合,优雅的把文本和语音两个模态,整合进了一个模型中。

这样做的好处非常直接——从接收用户语音到吐出第一个字,只需要一次模型推理,直接把第一个 token 的延迟给打了下来。

看到这个模型结构图,我突然懂了为什么这个模型叫“端到端语音语言大模型”了。

同时,从上图可以看出,这里 Cross Attention 的效率,极大的决定了延迟高低。

1 秒延迟黑科技:EALLQA 技术改进 Cross-Attention 建模

贾磊老师在现场提到,现有的 Attention 技术,比如 DeepSeek 中使用的MLA(Multi-Head Latent Attention),用在 Cross-Attention 的时候,容易出现不稳定的情况。

于是,百度探索出了一个成为 EALLQA(Efficient All Query Attention,高效全查询注意力)的“黑科技”,也就是专门为 Cross-Attention 场景设计的全新 Attention 机制

这个 EALLQA,可以总结成以下几点:
    更合理的“位置编码”:创新的采用了“隐式 RNN 的两级位置编码”,让模型在处理语音这种时序信息流时,对前后位置关系的理解更稳、更准了,解决了之前容易不稳定的问题。
    训练和推理“双管齐下”的效率:EALLQA 在训练时用的是 MHA(Multi-Head Attention,在 128 维度空间),这相对“节省资源”;而到了推理阶段,它又巧妙地切换到 MQA(Multi-Query Attention,在 512 维度空间,并且这个关键的 K 和 V 值是各层共享的)。这波操作,既保证了训练效果和效率,又极大降低了实际运行时的计算成本。
    KV Cache 瘦身:这是关键!大模型运算慢、成本高,很大一部分“锅”要甩给 KV Cache(键值缓存)。它就像是大模型处理信息时需要临时存放的“草稿”,数据量一大就特别占地方、拖慢速度。而 EALLQA 这个技术,根据贾磊老师的介绍,能把 KV Cache 降低几十倍。
    KV 计算量也锐减:不仅 Cache 小了,连计算量也少了。结合前面提到的语音识别与 LLM Encoder 的融合,KV 计算量也节省了 10 倍以上

EALLQA 加上 Encoder 的融合设计,直接把 Cross Attention 这个环节的计算量和缓存需求给打了下来。这对于降低延迟,尤其是让我们能在 1 秒左右听到文小言回应的第一个字,起到了决定性的作用。

可以说,EALLQA 就是百度这次为了攻克语音对话低延迟难题,专门打磨出的核心技术突破。

MoE+ 流式逐字处理:最高 90% 降本,L20 显卡高达数百并发

通过 EALLQA 技术,解决了“慢”的问题。与此同时,百度这波还巧妙的通过“流式逐字处理 +MoE 架构”来解决了实时语音对话“成本高”和“并发低”的问题,相比行业平均水平,成本能降低 50% ,甚至达到惊人的 90%。

  先说一下「流式逐字处理」的机制。

我们平时听别人说话,是不是一个字一个字听进去

的?我们并不需要等对方说完一整段话,才开始理解和反应。百度这个语音大模型就模拟了这一点。它不是先生成一整句完整的文本,再去合成语音;而是一边听 + 思考,一边一个字、一个词地往外“说”

正因为是“一个字一个字”地听和说,对于系统来说,同一时间处理一个用户的计算压力相对分散。这使得系统可以非常从容地同时服务大量用户(也就是高并发)。

而且,百度这里用了 MoE 架构,在处理语音时,可能每个用户(每个 token)只需要激活 5 亿或 10 亿参数的“专家小分队”。在高并发下,这个模型就能被极大地共享,成本自然就摊薄了。

根据百度 AI DAY 上公布的信息,这个模型可以部署在 L20 这样廉价的显卡上,并且在满足低延迟要求的同时,实现超过数百的并发处理能力。

这波操作,直接把实时语音大模型的使用门槛和成本极大的打下来了,让以前可能觉得“用不起”大模型的语音应用场景,一下子变得触手可及。

要我说,对于推动语音通话技术的普及来说,这些技术点的公开,要比发布新产品有更大的社会意义。

多达 17 种情感的超自然语音对话

光快、光便宜还不够,如果声音听起来像个没有感情的机器人,那再快也是没人用的。

还记得前面我们说的那个「端到端语音语言大模型」和「流式逐字处理」吗?它们不仅解决了延迟和成本问题,也恰恰是让声音更自然的关键。

前面提过,传统的语音助手通常是“三段式”:先识别成文字 (ASR),再让大模型思考文字 (LLM),最后把文字交给语音合成模块 (TTS) 念出来。这个过程中,TTS 模块往往只知道要念什么字,但对这句话背后的情感、上下文语境可能一无所知,念出来的声音自然就容易平淡、生硬。

但百度这次,是端到端的。

端到端 + 流式逐字之后,便可以:
    大模型直接“指挥”发声:大模型在思考生成回答内容的同时,就已经把“该用什么语气”、“哪里该停顿”、“这句话应该带有什么情感”这些信息一起考虑进去了。它不是简单地输出文字,而是直接输出带有丰富韵律和情感指令的“准语音信号”。
    基于数据训练情感、韵律:通过在大规模的文本-语音数据上进行训练,端到端的模型可以很自然的学会人说话的各种腔调和情感。它可以根据对话的上下文,实时生成带有饱满情感自然停顿语调韵律的语音。从上面的技术图看,其设计了专门的机制(比如双层 GPT-like Transformer 和 Prompt )来控制这些,据称能覆盖多达 17 种情感

更新后的文小言,给我的感觉就是,它不是在“念”答案,更像是在用带有情绪和理解的语气和你“聊”。这让整个对话体验变得亲切、舒服了许多。

贾磊:不应该将技术创新捂在手里

一个语音模型,能同时做到超低延迟 + 超高并发 + 超低成本 + 效果提升,是一个相当难的事情,足以反映百度这个工作的含金量。

但,我想用我在专访时,被贾磊老师深深打动到的一个点,来结束本文。

我:

为何要把这个技术突破公开传播出去?

贾磊老师:

科学可能有国界,但没有公司边界。大家就应该积极去分享,推动这个学科的进步。我们拿出来,告诉你语音领域有重大突破,它有重大进展,你想想做大模型的人是不是就更关注语音领域的研究?语音领域高速发展,手机就会更智能,有利于整个行业和生态,你应该这样想这个问题,不应该将技术创新捂在手里,这不是做科研甚至技术进步的途径。

我们百度也是一直秉承开放、自由的学术理念,我们做百度 AI Day 就是把核心技术分享出去,告诉大家我们是怎么做的。就想要这个领域爆发出来,不单单百度语音人工智能发展起来,我希望腾讯、阿里、头条、华为都发展起来,整个行业都发展起来,大模型才能真正推动社会进步,做大模型的所有人才能够有好的发展,好的收益,我是这样一个理念,百度公司也跟我一样的理念。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

文小言 语音大模型 百度AI EALLQA MoE架构
相关文章