GLM大模型 2024年10月25日
GLM-4-Voice:智谱新一代端到端语音大模型,同步开源。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱技术团队发布了端到端语音模型GLM-4-Voice,该模型能够直接理解和生成中英文语音,并支持情感表达、语速调节、实时打断等功能。GLM-4-Voice 拥有更低的延时,支持实时打断,进一步提升交互体验。该模型已同步上线清言 app,使其成为国内首个具有端到端高级语音能力的大模型产品。此外,GLM-4-Voice 模型发布即开源,成为智谱首个开源的端到端多模态模型。

😄 GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。

🚀 GLM-4-Voice 采用端到端建模方式,以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失,也解锁了更高的能力上限。

🤖 GLM-4-Voice 模型由三个部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-9B 和 GLM-4-Voice-Decoder,分别负责将语音输入转化为离散的 token、理解和生成离散化的语音以及将离散化的语音 token 转化为连续的语音输出。

💡 GLM-4-Voice 在预训练方面,将 Speech2Speech 任务解耦合为 Speech2Text 和 Text2Speech 两个任务,并设计两种预训练目标适配这两种任务形式,以提升模型在语音模态下的智商和合成表现力。

💻 智谱已将 GLM-4-Voice 模型能力同步上线清言 app,使其成为国内首个具有端到端高级语音能力的大模型产品。同时,GLM-4-Voice 也已开源,成为智谱首个开源的端到端多模态模型。

智谱技术团队 2024-10-25 15:15 浙江

开源

继语言模型、图像理解、视频理解、图像生成、视频生成等模型之后,今天,智谱的多模态大模型家族再次加入新成员——GLM-4-Voice(端到端语音模型)这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。


GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。


具体来说,GLM-4-Voice具备:


    情感表达和情感共鸣:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻的变化。

    调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。

    随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如,你可以随时打断 TA,让 TA 输出新的内容,更加符合日常对话情境。

    多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。


目前,我们已将该模型能力同步上线清言 app,这让清言成为国内首个具有端到端高级语音(超拟人语音)能力的大模型产品


同时,我们也很高兴地宣布,GLM-4-Voice 发布即开源,这也是我们首个开源的端到端多模态模型。


代码仓库:https://github.com/THUDM/GLM-4-Voice



与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失,也解锁了更高的能力上限。


图|GLM-4-Voice 模型架构图


GLM-4-Voice 由三个部分组成:


具体来说,GLM-4-Voice 以离散 token 的方式表示音频,实现了音频的输入和输出的端到端建模。具体来说,我们基于语音识别(ASR)模型以有监督方式训练了音频 Tokenizer,能够在 12.5Hz(12.5 个音频 token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。


语音合成方面,我们采用 Flow Matching 模型流式从音频 token 合成音频,最低只需要 10 个 token 合成语音,最大限度降低对话延迟。


预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,我们将 Speech2Speech 任务解耦合为 Speech2Text(根据用户音频做出文本回复) 和 Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标适配这两种任务形式:


图|GLM-4-Voice 预训练数据构造


GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。为了支持高质量的语音对话,我们设计了一套流式思考架构:输入用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本模态作为参照保证回复内容的高质量,并根据用户的语音指令变化感情需求,在保证智商的情况下仍然具有端到端建模的能力,同时保持低延迟性(最低只需要输出 20 个 token 便可以合成语音)。


更详细的技术报告将在之后公布。



我们提供了可以直接启动的 Web Demo。用户可以输入语音或文本,模型会同时给出语音和文字回复。


Preparation

首先下载仓库

git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voicecd GLM-4-Voice

然后安装依赖。

pip install -r requirements.txt

由于 Decoder 模型不支持通过 transformers 初始化,因此 checkpoint 需要单独下载。

#git 模型下载,请确保已安装git clonegit-lfsgit clone https://huggingface.co/THUDM/glm-4-Voice-decode

Launch Web Demo

首先启动模型服务

python model_server.py --model-path glm-4-voice-9b

然后启动 web 服务

python web_demo.py

即可在 http://127.0.0.1:8888 访问 web demo。



更多智谱开源:




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4-Voice 端到端语音模型 多模态大模型 语音理解 语音生成
相关文章