掘金 人工智能 05月02日 09:03
新型轻量级音频模型问世!1.5B参数挑战 Whisper 与 Qwen2-Audio!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Aero-1-Audio是一款由LMMs-Lab开发的1.5B参数音频模型,基于Qwen-2.5-1.5B构建。它在语音识别、音频理解和指令遵循任务中表现出色,某些基准测试中超越了Whisper和Qwen2-Audio。该模型尤其擅长处理长音频,最长可达15分钟,且无需分段,保持上下文连贯性。训练过程仅需少量资源,使用16个H100 GPU和50k小时音频数据,耗时不到24小时。Aero-1-Audio支持Hugging Face Transformers,易于上手,为各种语音应用提供了一个高效且实用的解决方案。

🗣️Aero-1-Audio是一款轻量级音频模型,仅有1.5B参数,基于Qwen-2.5-1.5B构建,适用于对资源占用有要求的应用场景。

⏱️该模型支持处理长达15分钟的连续音频,无需进行分段处理,从而保证了上下文信息的完整性和连贯性,这对于语音助手和会议记录等应用至关重要。

🚀Aero-1-Audio在语音识别(ASR)、音频理解和指令遵循等任务中表现出色,在部分基准测试中甚至超越了Whisper和Qwen2-Audio等模型,展现了其卓越的性能。

🛠️Aero-1-Audio支持Hugging Face Transformers,并提供了详细的安装和使用示例,包括单条音频和批量音频的推理代码,方便开发者快速上手和集成。

随着语音助手、会议转写等应用的普及,轻量级、高性能的音频模型需求也日益增长。

Aero-1-Audio 是一款新型的1.5B参数音频模型,由 LMMs-Lab 开发,基于 Qwen-2.5-1.5B 构建。

在语音识别(ASR)、音频理解和指令遵循任务中表现出色,部分基准超越 Whisper 和 Qwen2-Audio,尤其在参数效率和长音频处理上独树一帜。

训练仅需 16 个 H100 GPU 和 50k 小时音频数据(约 5B 令牌),耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频,无需分段,保持上下文连贯性。

核心功能

快速上手

Aero-1-Audio 支持 Hugging Face Transformers,推荐 GPU 环境(至少 6GB 显存)。

当然 Aero-1-Audio 也提供有HF体验地址(地址在文末)。

安装步骤

① 安装最新 Transformers

pip install transformers@git+https://github.com/huggingface/transformers@v4.51.3-Qwen2.5-Omni-preview

② 安装音频处理库

pip install librosa

使用示例:

from transformers import AutoProcessor, AutoModelForCausalLMimport torchimport librosadef load_audio():    return librosa.load(librosa.ex("libri1"), sr=16000)[0]# 加载模型processor = AutoProcessor.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", device_map="cuda", torch_dtype="auto", attn_implementation="flash_attention_2", trust_remote_code=True)model.eval()messages = [    {        "role""user",        "content": [            {                "type""audio_url",                "audio""placeholder",            },            {                "type""text",                "text""Please transcribe the audio",            }        ]    }]audios = [load_audio()]prompt = processor.apply_chat_template(messages, add_generation_prompt=True)inputs = processor(text=prompt, audios=audios, sampling_rate=16000, return_tensors="pt")inputs = {k: v.to("cuda") for k, v in inputs.items()}outputs = model.generate(**inputs, eos_token_id=151645, max_new_tokens=4096)cont = outputs[:, inputs["input_ids"].shape[-1] :]print(processor.batch_decode(cont, skip_special_tokens=True)[0])

批量推理示例:

from transformers import AutoProcessor, AutoModelForCausalLMimport torchimport librosadef load_audio():    return librosa.load(librosa.ex("libri1"), sr=16000)[0]def load_audio_2():    return librosa.load(librosa.ex("libri2"), sr=16000)[0]processor = AutoProcessor.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", trust_remote_code=True)# We encourage to use flash attention 2 for better performance# Please install it with `pip install --no-build-isolation flash-attn`# If you do not want flash attn, please use sdpa or eager`model = AutoModelForCausalLM.from_pretrained("lmms-lab/Aero-1-Audio-1.5B", device_map="cuda", torch_dtype="auto", attn_implementation="flash_attention_2", trust_remote_code=True)model.eval()messages = [    {        "role""user",        "content": [            {                "type""audio_url",                "audio""placeholder",            },            {                "type""text",                "text""Please transcribe the audio",            }        ]    }]messages = [messages, messages]audios = [load_audio(), load_audio_2()]processor.tokenizer.padding_side="left"prompt = processor.apply_chat_template(messages, add_generation_prompt=True)inputs = processor(text=prompt, audios=audios, sampling_rate=16000, return_tensors="pt", padding=True)inputs = {k: v.to("cuda") for k, v in inputs.items()}outputs = model.generate(**inputs, eos_token_id=151645, pad_token_id=151643, max_new_tokens=4096)cont = outputs[:, inputs["input_ids"].shape[-1] :]print(processor.batch_decode(cont, skip_special_tokens=True))

应用场景推荐

写在最后

Aero-1-Audio,一个名字很“低调”、却性能炸裂的音频模型。

虽然参数只有 1.5B,却能跟 Whisper、Qwen-2-Audio 一较高下!

大模型火了之后,大家都在比谁的参数多、谁能处理更复杂的任务。但其实各种场景下对语音模型的要求不是“炫技”,而是:识别准、长语音、离线、低延迟等要求。

而 Aero-1-Audio 就很匹配,它提供了一个性能与资源占用双优的方案。

如果你在寻找一个能“稳跑、听得懂、资源吃得少”的语音处理模型,Aero-1-Audio 无疑是目前最值得尝试的之一。

HF模型:huggingface.co/lmms-lab/Ae…

HF体验:huggingface.co/spaces/lmms…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Aero-1-Audio 语音识别 长音频处理 轻量级模型
相关文章