新型轻量级音频模型问世！1.5B参数挑战 Whisper 与 Qwen2-Audio！

随着语音助手、会议转写等应用的普及，轻量级、高性能的音频模型需求也日益增长。

Aero-1-Audio 是一款新型的1.5B参数音频模型，由 LMMs-Lab 开发，基于 Qwen-2.5-1.5B 构建。

在语音识别（ASR）、音频理解和指令遵循任务中表现出色，部分基准超越 Whisper 和 Qwen2-Audio，尤其在参数效率和长音频处理上独树一帜。

训练仅需 16 个 H100 GPU 和 50k 小时音频数据（约 5B 令牌），耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频，无需分段，保持上下文连贯性。

核心功能

轻量模型体积：仅 1.5B 参数

支持长音频：可处理最长 15 分钟连续语音，无需分段，可保持上下文连贯

语音识别（ASR）：在语音识别准确率高

音频理解：支持复杂音频分析（如语音、音效、音乐）和指令驱动任务

快速上手

Aero-1-Audio 支持 Hugging Face Transformers，推荐 GPU 环境（至少 6GB 显存）。

当然 Aero-1-Audio 也提供有HF体验地址（地址在文末）。

安装步骤

① 安装最新 Transformers

pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview

② 安装音频处理库

pip install librosa

使用示例：

from transformers import AutoProcessor, AutoModelForCausalLMimport torchimport librosadef load_audio():    return librosa.load(librosa.ex("libri1"), sr=16000)[0]# 加载模型processor = AutoProcessor.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", device_map="cuda", torch_dtype="auto", attn_implementation="flash_attention_2", trust_remote_code=True)model.eval()messages = [    {        "role": "user",        "content": [            {                "type": "audio_url",                "audio": "placeholder",            },            {                "type": "text",                "text": "Please transcribe the audio",            }        ]    }]audios = [load_audio()]prompt = processor.apply_chat_template(messages, add_generation_prompt=True)inputs = processor(text=prompt, audios=audios, sampling_rate=16000, return_tensors="pt")inputs = {k: v.to("cuda") for k, v in inputs.items()}outputs = model.generate(**inputs, eos_token_id=151645, max_new_tokens=4096)cont = outputs[:, inputs["input_ids"].shape[-1] :]print(processor.batch_decode(cont, skip_special_tokens=True)[0])

批量推理示例：

from transformers import AutoProcessor, AutoModelForCausalLMimport torchimport librosadef load_audio():    return librosa.load(librosa.ex("libri1"), sr=16000)[0]def load_audio_2():    return librosa.load(librosa.ex("libri2"), sr=16000)[0]processor = AutoProcessor.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", trust_remote_code=True)# We encourage to use flash attention 2 for better performance# Please install it with `pip install --no-build-isolation flash-attn`# If you do not want flash attn, please use sdpa or eager`model = AutoModelForCausalLM.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", device_map="cuda", torch_dtype="auto", attn_implementation="flash_attention_2", trust_remote_code=True)model.eval()messages = [    {        "role": "user",        "content": [            {                "type": "audio_url",                "audio": "placeholder",            },            {                "type": "text",                "text": "Please transcribe the audio",            }        ]    }]messages = [messages, messages]audios = [load_audio(), load_audio_2()]processor.tokenizer.padding_side="left"prompt = processor.apply_chat_template(messages, add_generation_prompt=True)inputs = processor(text=prompt, audios=audios, sampling_rate=16000, return_tensors="pt", padding=True)inputs = {k: v.to("cuda") for k, v in inputs.items()}outputs = model.generate(**inputs, eos_token_id=151645, pad_token_id=151643, max_new_tokens=4096)cont = outputs[:, inputs["input_ids"].shape[-1] :]print(processor.batch_decode(cont, skip_special_tokens=True))

应用场景推荐

语音助手：做脱网语音控制、对话助手

实时转写：在课堂中捕捉长时间讲解并输出笔记摘要

会议纪要：会议音频实时转写、智能标签、关键词提取

归档理解：为录音库添加内容标签，按语义搜索

听力模块：赋予 Agent 多轮长语音的理解能力

写在最后

Aero-1-Audio，一个名字很“低调”、却性能炸裂的音频模型。

虽然参数只有 1.5B，却能跟 Whisper、Qwen-2-Audio 一较高下！

大模型火了之后，大家都在比谁的参数多、谁能处理更复杂的任务。但其实各种场景下对语音模型的要求不是“炫技”，而是：识别准、长语音、离线、低延迟等要求。

而 Aero-1-Audio 就很匹配，它提供了一个性能与资源占用双优的方案。

如果你在寻找一个能“稳跑、听得懂、资源吃得少”的语音处理模型，Aero-1-Audio 无疑是目前最值得尝试的之一。

HF模型：huggingface.co/lmms-lab/Ae…

HF体验：huggingface.co/spaces/lmms…

核心功能

快速上手

应用场景推荐

写在最后

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签