IT之家 17小时前
视频背景音自动转为文字描述:多媒体框架 FFmpeg 8.0 引入 OpenAI Whisper 音频 AI 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

FFmpeg 8.0 版本迎来重大更新,新增了名为 Whisper 的音频过滤器,该功能深度整合了 OpenAI 的 Whisper 语音识别模型。通过这一内置过滤器,FFmpeg 能够自动识别视频背景音频内容,并将其转换为文字描述,方便用户生成字幕或结构化数据。Whisper 过滤器的实现依赖于 whisper.cpp 库,用户需先安装并启用相关支持库,并在编译时激活该功能。该过滤器支持 TXT、SRT、JSON 等多种输出格式,也可通过 HTTP 等协议将转录内容传输至其他系统。此外,过滤器还提供队列参数以优化识别准确率与处理频率,并支持 GPU 加速和 Silero 语音活动检测,显著提升了转录效率和准确性,为视频内容处理带来更便捷的AI能力。

🚀 FFmpeg 8.0 新增 Whisper 音频过滤器,集成 OpenAI Whisper 模型,实现视频背景音频的自动语音识别和文字转录,可生成字幕或结构化数据。

💡 该过滤器依赖 whisper.cpp 库,需要用户自行安装并启用支持库,编译时通过 `--enable-whisper` 选项激活。支持 TXT、SRT、JSON 等多种输出格式,并可通过 HTTP 等协议传输数据。

⏳ 过滤器提供队列参数,允许用户自定义累积识别的音频时长,以平衡识别准确率与处理频率。更长的队列值提高准确率但降低频率,更短的值则减少延迟,适合精细分析。

⚡️ Whisper 过滤器支持 GPU 加速,结合 FFmpeg 的多线程处理,能显著提升转录速度。同时,集成的 Silero 语音活动检测(VAD)功能可自动切片语音片段,进一步提高识别效率和段落准确性。

IT之家 8 月 16 日消息,多媒体框架 FFmpeg 开发团队发文,预热 FFmpeg 8.0 版本新增一项名为 Whisper 的音频过滤器,该功能整合了 OpenAI 的 Whisper 语音识别模型,通过内建过滤器机制,可以自动将视频背景音频内容识别转换为文字描述,并输出为字幕或结构化数据

据介绍,Whisper 过滤器的实现依赖 whisper.cpp 库,用户需要先在系统中安装并启用对应支持库,并在编译时通过“--enable-whisper”选项激活功能。相应过滤器支持纯文本 TXT、SRT、JSON 等输出模式,同时可以通过 HTTP 等协议直接将输出内容传输到其他系统。如果未指定输出位置,转录结果将作为元数据附加在音频帧上,供后续处理或分析使用。

官方强调,该过滤器提供了队列参数,用户可以设置累积多少音频数据再进行识别,默认值约为 3 秒,如果将时间设置更长,识别准确率则更高 / 处理频率更低,适合批处理工作场景;如果将时间设置更短,则可降低过滤器处理延迟,适合对重要音频内容进行具体分析和微调。

此外,Whisper 过滤器也支持 GPU 加速,结合 FFmpeg 本身的多线程处理,在高性能环境下能显著提升转录速度。同时它还支持“Silero 语音活动检测(VAD)”功能,能在长音频流中自动切片语音片段,从而进一步提升识别效率和段落准确度。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FFmpeg AI 语音识别 字幕生成 OpenAI
相关文章