掘金 人工智能 04月28日 09:37
月之暗面最新开源模型!Kimi-Audio:革新多模态音频处理,统一音频理解、生成与对话!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

月之暗面(Moonshot AI)开源了 Kimi-Audio,一款基于 Qwen 2.5-7B 构建的音频基础模型。该模型通过统一的架构,整合了音频理解、生成和对话任务,解决了处理音频时需切换多个工具的痛点。Kimi-Audio 拥有语音识别(ASR)、音频问答(AQA)、文本到语音(TTS)等多种功能,并支持端到端语音对话,提供高效流式生成和开源评估工具包。用户可以通过 Docker 或本地部署方式快速体验,实现智能听写、语音聊天机器人等应用。Kimi-Audio 简化了音频处理流程,为开发者提供了强大的工具。

🎙️ Kimi-Audio 基于 Qwen 2.5-7B 构建,是一款开源的音频基础模型,旨在统一处理音频理解、生成和对话任务。

🗣️ 该模型支持多种功能,包括语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。

💻 Kimi-Audio 提供了两种部署方式:Docker 和本地部署。用户可以通过克隆项目、安装依赖,或使用预构建镜像,快速部署并体验模型。

🚀 Kimi-Audio 在 AISHELL-1 上字错误率(WER)仅为 0.60%,优于 Whisper 和 Paraformer,并支持高效流式生成,延迟低至毫秒级。

处理音频数据时,我们是不是经常要切换各种工具?

转写用 ASR(语音识别),转音频又得找稳定的 TTS 模型(工具)……

几个小时前,月之暗面 Moonshot AI 正式开源了 Kimi-Audio,可以帮助我们解决处理音频时来回切换不同工具的痛点。

Kimi-Audio 由月之暗面(Moonshot AI)开发,是一款开源音频基础模型,基于 Qwen 2.5-7B 构建,可以统一处理音频理解、生成和对话任务。

依托 1300 万小时音频数据预训练,通过混合输入(离散语义标记 + 连续声学特征)与创新架构,统一多种任务。

Kimi-Audio 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。

主要功能

快速部署

Kimi-Audio 提供 Docker 和本地部署两种方式。

本地部署

1、克隆项目

git clone https://github.com/MoonshotAI/Kimi-Audiocd Kimi-Audio

2、安装依赖

pip install -r requirements.txt

Docker 部署

1、构建镜像

docker build -t kimi-audio:v0.1 .

或使用预构建镜像

docker pull moonshotai/kimi-audio:v0.1

2、运行容器

docker run -it --gpus all kimi-audio:v0.1

使用方法

1、加载模型

import soundfile as sffrom kimia_infer.api.kimia import KimiAudio# --- 1. 加载模型 ---model_path = "moonshotai/Kimi-Audio-7B-Instruct" model = KimiAudio(model_path=model_path, load_detokenizer=True)# --- 2. 设置采样参数 ---sampling_params = {    "audio_temperature"0.8,    "audio_top_k"10,    "text_temperature"0.0,    "text_top_k"5,    "audio_repetition_penalty"1.0,    "audio_repetition_window_size"64,    "text_repetition_penalty"1.0,    "text_repetition_window_size"16,}

2、语音识别(ASR)- 示例

# --- 3. Example 1: Audio-to-Text (ASR) ---messages_asr = [    # You can provide context or instructions as text    {"role""user""message_type""text""content""Please transcribe the following audio:"},    # Provide the audio file path    {"role""user""message_type""audio""content""test_audios/asr_example.wav"}]# Generate only text output_, text_output = model.generate(messages_asr, **sampling_params, output_type="text")print(">>> ASR Output Text: ", text_output) # Expected output: "这并不是告别,这是一个篇章的结束,也是新篇章的开始。"

3、语音对话 - 示例

# --- 4. Example 2: Audio-to-Audio/Text Conversation ---messages_conversation = [    # Start conversation with an audio query    {"role""user""message_type""audio""content""test_audios/qa_example.wav"}]# Generate both audio and text outputwav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type="both")# Save the generated audiooutput_audio_path = "output_audio.wav"sf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000# Assuming 24kHz outputprint(f">>> Conversational Output Audio saved to: {output_audio_path}")print(">>> Conversational Output Text: ", text_output) # Expected output: "A."print("Kimi-Audio inference examples complete.")

运行评估工具包

1、克隆 Evalkit

git clone https://github.com/MoonshotAI/Kimi-Audio-Evalkitcd Kimi-Audio-Evalkitpip install -r requirements.txt

2、运行 ASR 评估

python almeval/datasets/ds_asr.py --model kimi-audio

更多使用细则可参考项目文档或HF模型说明。

写在最后

Kimi Audio 是基于 Qwen 2.5-7B 构建的音频-文本多模态基础模型,它既能听懂,又能说话,而且理解深、表达自然、响应快。

具备语音识别(ASR)、音频理解(分类/情绪识别/问答)、端到端语音生成(TTS对话)等核心功能,真正把过去需要多个不同模型的能力,统一到一套模型架构之中!

是一款同时能听懂、听会、还能回答、还能说的超级音频模型,一步到位搞定音频所有需求。

比如用它做智能听写系统、语音版Chatbot、音频情绪检测之类的都是可以满足的。

GitHub 项目地址:github.com/MoonshotAI/…

模型 HuggingFace:huggingface.co/moonshotai/…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi-Audio 月之暗面 音频模型 语音识别 TTS
相关文章