英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王：1 秒 AI 转录 60 分钟音频，字错率低至 6.05%

IT之家 15小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

英伟达最新开源的Parakeet TDT 0.6B是一款先进的自动语音识别（ASR）模型，在Hugging Face平台上发布。它以惊人的速度和高质量的转录能力著称，仅需1秒即可处理60分钟的音频，速度是主流开源ASR模型的50倍。在Hugging Face的Open ASR Leaderboard上，其字错率（WER）仅为6.05%，性能卓越。该模型基于Transformer架构，针对英伟达硬件优化，为实时转录、语音分析等企业级应用提供强大支持。

🚀 **速度惊人**：Parakeet TDT 0.6B模型仅需1秒即可处理60分钟音频，是现有主流开源ASR模型的50倍，极大地提高了语音处理效率。

🎯 **精度领先**：在Hugging Face的Open ASR Leaderboard上，Parakeet TDT 0.6B的字错率（WER）低至6.05%，在开源模型中表现出色，确保了转录的准确性。

🎶 **独特功能**：该模型支持歌曲转歌词转录，拓展了音乐索引和媒体平台的用例，还支持数字和时间戳格式化以及标点恢复功能，提升了转录质量和可读性。

⚙️ **技术优势**：Parakeet TDT 0.6B基于Transformer架构，结合高质量转录数据进行微调，并针对英伟达硬件优化推理，实时率（RTF）高达3386，充分利用了英伟达的TensorRT 和 FP8 量化技术。

IT之家 5 月 7 日消息，科技媒体 marktechpost 昨日（5 月 6 日）发布博文，报道称英伟达最新推出 Parakeet TDT 0.6B，是一款先进的自动语音识别（ASR）模型，已在 Hugging Face 平台上完全开源。

Parakeet TDT 0.6B 的核心优势在于其无与伦比的速度和转录质量。该模型仅需 1 秒即可处理 60 分钟音频，是现有主流开源 ASR 典型模型速度的 50 倍。

在 Hugging Face 的 Open ASR Leaderboard 上，其字错率（WER）低至 6.05%，成为开源模型中的佼佼者。这一性能为实时转录、语音分析、呼叫中心智能和音频内容索引等企业级应用提供了强大支持。

该模型基于 Transformer 架构，结合高质量转录数据进行微调，并针对英伟达硬件优化推理。

IT之家援引博文介绍，该模型关键特性包括：6 亿参数的编码-解码结构、量化和融合内核以提升推理效率、支持 TDT（Transducer Decoder Transformer）架构，以及精确的时间戳、数字格式化和标点恢复功能。

此外，该模型还开创性地支持歌曲转歌词转录，这一罕见功能拓展了音乐索引和媒体平台的用例，依托英伟达的 TensorRT 和 FP8 量化技术，其实时率（Real Time Factor，RTF，模型处理时间和音频长度的比值）达到 3386。

Parakeet TDT 0.6B 不仅关注速度和精度，还内置了多项独特功能。该模型能将歌曲内容转为歌词，适用于音乐和媒体领域；支持数字和时间戳格式化，提升会议记录、法律转录和医疗记录的可读性；标点恢复功能则增强了下游自然语言处理（NLP）应用的表现。这些特性大幅提升转录质量，减轻后期处理或人工编辑的负担，尤其适合企业级部署。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签