掘金 人工智能 05月01日 09:53
Kimi-Audio:月之暗面开源音频大模型,1300万小时训练重塑语音交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了月之暗面推出的开源音频基础模型 Kimi-Audio。该模型基于1300万小时的音频数据训练,具备强大的音频理解和生成能力。Kimi-Audio采用混合输入架构和流匹配解码技术,支持语音识别、情感分析、音频生成等多项任务,并提供代码示例,方便用户快速上手体验。

🗣️ Kimi-Audio 是由 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。

🧠 核心架构采用混合音频输入,结合 LLM 设计,支持并行生成文本和音频标记,通过分块流式解码器实现低延迟音频生成。

💡 Kimi-Audio 具备多种功能,包括语音识别、情感识别、场景分类、音频字幕、语音合成和多轮对话等。

🛠️ 运行 Kimi-Audio 需要获取代码并安装依赖,文章提供了代码示例,演示了如何使用该模型进行语音转文本(ASR)和音频对话。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎙️ "Siri要失业?月之暗面开源音频核弹:1300万小时训练+多模态混合架构,语音交互迎来iPhone时刻"

大家好,我是蚝油菜花。当同行还在为语音识别准确率挣扎时,这个国产模型已经让机器「听懂」人类的情感波动!你是否经历过这些AI耳背现场——

今天拆解的 Kimi-Audio ,正在重定义声音智能!月之暗面这支「音频手术刀」:

已有教育机构用它开发口语教练,客服系统靠它识别用户情绪——你的麦克风,准备好接入「AI读心术」了吗?

🚀 快速阅读

Kimi-Audio是月之暗面推出的开源音频基础模型。

    功能:支持语音识别、情感分析、音频生成等10余种任务技术:采用混合输入架构与流匹配解码,训练数据达1300万小时

Kimi-Audio 是什么

Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。

核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 LLM 的设计,支持并行生成文本和音频标记,同时通过分块流式解码器实现低延迟音频生成。

Kimi-Audio 的主要功能

Kimi-Audio 的技术原理

如何运行 Kimi-Audio

获取代码

git clone https://github.com/MoonshotAI/Kimi-Audio.gitcd Kimi-Audiogit submodule update --init --recursivepip install -r requirements.txt

快速入门

以下示例展示了基本的使用方法,包括从音频生成文本(ASR)以及在对话中生成文本和语音。

import soundfile as sffrom kimia_infer.api.kimia import KimiAudio# --- 1. 加载模型 ---model_path = "moonshotai/Kimi-Audio-7B-Instruct" model = KimiAudio(model_path=model_path, load_detokenizer=True)# --- 2. 定义采样参数 ---sampling_params = {    "audio_temperature": 0.8,    "audio_top_k": 10,    "text_temperature": 0.0,    "text_top_k": 5,    "audio_repetition_penalty": 1.0,    "audio_repetition_window_size": 64,    "text_repetition_penalty": 1.0,    "text_repetition_window_size": 16,}# --- 3. 示例 1: 音频到文本 (ASR) ---messages_asr = [    # 提供上下文或指令    {"role": "user", "message_type": "text", "content": "请转录以下音频:"},    # 提供音频文件路径    {"role": "user", "message_type": "audio", "content": "test_audios/asr_example.wav"}]# 仅生成文本输出_, text_output = model.generate(messages_asr, **sampling_params, output_type="text")print(">>> ASR 输出文本: ", text_output) # 预期输出: "这并不是告别,这是一个篇章的结束,也是新篇章的开始。"# --- 4. 示例 2: 音频到音频/文本对话 ---messages_conversation = [    # 用音频查询开始对话    {"role": "user", "message_type": "audio", "content": "test_audios/qa_example.wav"}]# 生成音频和文本输出wav_output, text_output = model.generate(messages_conversation, **sampling_params, output_type="both")# 保存生成的音频output_audio_path = "output_audio.wav"sf.write(output_audio_path, wav_output.detach().cpu().view(-1).numpy(), 24000) # 假设输出为 24kHzprint(f">>> 对话输出音频保存到: {output_audio_path}")print(">>> 对话输出文本: ", text_output) # 预期输出: "A."print("Kimi-Audio 推理示例完成。")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦模型,1300万小时训练重塑语音交互

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi-Audio 开源 音频模型 语音交互 月之暗面
相关文章