通过huggingface学习【自动语音识别（Automatic Speech Recognition, ASR）】

自动语音识别

任务

自动语音识别（Automatic Speech Recognition, ASR），又称语音转文本（Speech to Text, STT），是将给定音频转录为文本的任务。其应用广泛，例如语音用户界面。

输入

输出

示例

关于自动语音识别

用例

虚拟语音助手

字幕生成

任务变体

多语言 ASR
多语言 ASR 模型可以将包含多种语言的音频输入转换为转录文本。一些多语言 ASR 模型包含语言识别模块以提高性能。
多语言 ASR 的使用已变得流行，仅用一个模型处理所有语言的想法可以简化生产流程。以 Whisper 为例，它展示了如何用单个模型处理 100 多种语言。

推理

Hub 包含超过 17,000 个 ASR 模型，您可以使用模型页面小部件在浏览器中立即测试这些模型。您还可以通过无服务器推理 API 将任何模型用作服务。我们还通过无服务器推理 API 支持 transformers、speechbrain、NeMo 和 espnet 等库。以下是运行推理的简单代码片段：

python

运行

# Python示例（使用requests库）import jsonimport requestsheaders = {"Authorization": f"Bearer {API_TOKEN}"}API_URL = "https://router.hf-mirror.com/hf-inference/models/openai/whisper-large-v3"def query(filename):    with open(filename, "rb") as f:        data = f.read()    response = requests.request("POST", API_URL, headers=headers, data=data)    return json.loads(response.content.decode("utf-8"))data = query("sample1.flac")

您也可以使用 JavaScript 客户端 huggingface.js 通过无服务器推理 API 转录音频：

javascript

// JavaScript示例（使用huggingface.js）import { InferenceClient } from "@huggingface/inference";const inference = new InferenceClient(HF_TOKEN);await inference.automaticSpeechRecognition({    data: await (await fetch("sample.flac")).blob(),    model: "openai/whisper-large-v3",});

对于与 transformers 兼容的模型，如 Whisper、Wav2Vec2 和 HuBERT，您还可以使用该库按如下方式运行推理：

python

运行

# Python示例（使用transformers库）# 先安装库：pip install --upgrade transformersfrom transformers import pipelinepipe = pipeline("automatic-speech-recognition", "openai/whisper-large-v3")result = pipe("sample.flac")# 输出：{'text': "GOING ALONG SLUSHY COUNTRY ROADS AND SPEAKING TO DAMP AUDIENCES IN DRAUGHTY SCHOOL ROOMS DAY AFTER DAY FOR A FORTNIGHT HE'LL HAVE TO PUT IN AN APPEARANCE AT SOME PLACE OF WORSHIP ON SUNDAY MORNING AND HE CAN COME TO US IMMEDIATELY AFTERWARDS"}

使用自有数据解决 ASR 问题

我们有一个好消息！您可以在特定语言上对基础语音模型进行微调（迁移学习），而无需大量数据。现有的预训练模型包括 Whisper、Wav2Vec2-MMS 和 HuBERT。OpenAI 的 Whisper 模型是一个大型多语言模型，经过 100 多种语言和 400 万小时语音的训练。
以下详细博客文章展示了如何在带标签的数据上对预训练的 Whisper 检查点进行 ASR 微调。通过正确的数据和策略，您甚至可以在免费的 Google Colab 实例上微调高性能模型！建议阅读博客文章了解更多信息！

HF Mirror Whisper 活动

2022 年 12 月，超过 450 名参与者合作、微调和共享了 600 多个 Whisper ASR 模型，涵盖 100 多种不同语言。您可以在活动的语音识别排行榜上比较这些模型。
这些活动有助于实现所有语言（包括低资源语言）的 ASR 民主化。除了训练好的模型外，该活动还有助于积累实用的协作知识。

兼容库

ESPnetNeMospeechbrainTransformersTransformers.js

自动语音识别

任务

关于自动语音识别

用例

任务变体

推理

使用自有数据解决 ASR 问题

HF Mirror Whisper 活动

兼容库

相关资源

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签