广州小鹏汽车科技有限公司公布了一项名为“声学语义大模型、服务器、语音交互方法和存储介质”的专利。该专利旨在通过端到端的声学语义大模型,提升语音交互的效率和用户体验。该模型整合了声学编码、字符转写、知识检索和大语言模型等模块,减少了传统语音处理流程中的串行处理环节,从而降低了延迟,加快了响应速度。这项技术进步有望使小鹏汽车的语音交互系统更加流畅、智能。
🗣️该专利的核心是声学语义大模型,它整合了多个关键模块来处理语音请求。这些模块包括声学编码模块、字符转写模块、知识检索模块和大语言模型模块,从而实现端到端的语音处理。
✍️声学编码模块负责将输入的语音请求转化为声学特征向量,字符转写模块则将语音转化为字符序列。知识检索模块基于字符序列从外部知识库中获取补充信息,为后续处理提供更全面的上下文。
🧠大语言模型模块是整个流程的核心,它结合声学特征向量和补充信息,确定最终的自然语言处理结果。这种整合方式使得系统能够更准确地理解用户的意图,并做出更智能的响应。
🚀与传统的语音处理方式相比,该专利通过减少串行处理环节,有效降低了处理语音请求的时延。这直接提升了模型响应速度,为用户带来更流畅、更快速的语音交互体验。

6月3日,广州小鹏汽车科技有限公司申请的“声学语义大模型、服务器、语音交互方法和存储介质”专利公布。摘要显示,本申请公开了一种声学语义大模型、服务器、语音交互方法和计算机可读存储介质。声学语义大模型包括声学编码模块、字符转写模块、知识检索模块和大语言模型模块。声学编码模块被配置为根据输入的语音请求,生成语音请求的声学特征向量。字符转写模块被配置为将语音请求转写为相对应的字符序列,字符序列包括语音请求中各文字相对应的字符。知识检索模块被配置为根据字符序列,自外部知识库中,获取补充信息。大语言模型模块被配置为根据声学特征向量和补充信息,确定自然语言处理结果。如此,通过端到端的声学语义大模型,减少了多个模块的串行处理,降低了处理语音请求的时延,提升了模型响应速度,从而增强用户体验。