掘金 人工智能 前天 08:28
Whisper 使用简单实例教程【1】
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文详细介绍了如何使用 OpenAI 研发的 Whisper 系统进行语音转文字。Whisper 是一款强大的自动语音识别(ASR)系统,支持多种语言和口音。文章从安装环境准备、运行流程到 Python 脚本调用,提供了全面的指南。用户可以根据自身需求选择不同模型,并将音频文件转换为文本、SRT 或 VTT 字幕文件。此外,文章还提供了注意事项,如硬件要求、语言设置和网络问题,帮助用户顺利完成语音转录任务。

🎤 Whisper 是一款由 OpenAI 开发的自动语音识别(ASR)系统,它支持多种语言,包括英语、中文等,能够处理不同口音和背景噪音下的语音内容,并将其准确地转换为文本,广泛应用于会议记录、音频字幕制作等场景。

💻 安装 Whisper 之前,需要准备 Python 环境,建议安装 Python 3.7 及以上版本。随后,通过命令行使用 `pip install git+github.com/openai/whisper` 命令安装 Whisper。安装完成后,就可以开始进行语音转文字的操作。

🎧 运行 Whisper 时,首先需要准备音频文件,支持 MP3、WAV、OGG 等格式。 其次,选择合适的模型,Whisper 提供了 tiny、base、small、medium 和 large 等不同大小和精度的模型,用户可以根据实际需求选择。最后,通过命令行执行转录命令,例如 `whisper /path/to/your/audio_file.mp3 --model base`。

📝 Whisper 会在音频文件目录下生成 .txt、.srt 和 .vtt 文件,.txt 文件包含纯文本转录内容,.srt 和 .vtt 文件是字幕文件,包含时间戳信息,可用于视频添加字幕。

🐍 除了在命令行中使用 Whisper,还可以在 Python 脚本中调用 Whisper 进行语音转文字。通过加载模型、进行转录和打印结果,可以轻松实现语音转文字的功能。

一、Whisper 简介

Whisper 是 OpenAI 研发的自动语音识别(ASR)系统,它具备强大的多语言识别能力,能处理多种不同口音和背景噪音下的语音内容,将其准确地转换为文本。其支持的语言众多,包括但不限于英语、中文、法语、德语等,广泛应用于会议记录、音频字幕制作、语音内容整理等场景。

二、安装环境准备

(一)系统要求

Whisper 可以在多种操作系统上运行,如 Windows、macOS 和 Linux。以下以常见的操作环境为例进行说明。

(二)安装 Python

Whisper 是基于 Python 开发的,所以首先需要安装 Python。建议安装 Python 3.7 及以上版本。可以从 Python 官方网站(www.python.org/downloads/)… Python to PATH”选项,这样可以在命令行中直接使用 Python 命令。

(三)安装 Whisper

打开命令行工具(Windows 可以使用命令提示符或 PowerShell,macOS 和 Linux 可以使用终端),输入以下命令来安装 Whisper:%% bash`` pip install git+github.com/openai/whis…这个命令会从 GitHub 上下载 Whisper 的源代码并进行安装。安装过程可能需要一些时间,取决于网络状况。

三、运行 Whisper 进行语音转文字

(一)准备音频文件

确保你有一个需要进行转录的音频文件,支持的音频格式包括 MP3、WAV、OGG 等。将音频文件放在你方便操作的目录下,例如创建一个名为“audio_files”的文件夹,把音频文件放入其中。

(二)选择模型

Whisper 提供了不同大小和精度的模型,模型越大,识别精度通常越高,但运行所需的计算资源也越多。常见的模型有:

(三)执行转录命令

在命令行中,使用以下命令来运行 Whisper 进行语音转文字:%% bashwhisper /path/to/your/audio_file.mp3 --model base 将 `/path/to/your/audio\_file.mp3` 替换为你实际的音频文件路径,`--model base` 指定使用 base 模型。如果你想使用其他模型,只需将 `base` 替换为相应的模型名称,如 `tiny`、`small` 等。 例如,如果你将音频文件 `example.mp3` 放在了“audio\_files”文件夹中,并且当前命令行的工作目录是该文件夹的上级目录,那么命令可以写成: %% bash whisper audio_files/example.mp3 --model base

(四)查看转录结果

当命令执行完成后,Whisper 会在音频文件所在的目录下生成几个文件:

四、在 Python 脚本中使用 Whisper

除了在命令行中使用 Whisper,你还可以在 Python 脚本中调用 Whisper 进行语音转文字。以下是一个简单的 Python 脚本示例:%% pythonimport whisper # 加载模型model = whisper.load_model("base") # 进行转录result = model.transcribe("audio_files/example.mp3") # 打印转录结果print(result["text"]) 将上述代码保存为一个 `.py` 文件,例如 `transcribe.py`,然后在命令行中运行: %% bash python transcribe.py这样就可以在 Python 脚本中实现语音转文字的功能。

五、注意事项

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Whisper 语音识别 ASR 语音转文字 OpenAI
相关文章