[分享创造] 偶尔有转录和翻译字幕的需求，于是写了个使用 ffmpeg(wasm) + whisper 语音转文字 + 大模型翻译字幕的 *网页工具

V2EX 11小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

作者分享了其开发的字幕网页工具，旨在解决转录字幕和观看无字幕电影的需求。该工具通过调用API实现，无需安装客户端或下载模型，方便用户使用。为了提升翻译质量，作者采用LLM结合上下文语境进行翻译，一次性翻译10条字幕，避免了传统LLM逐句翻译的不足。该网页前端部署在Vercel上，后端基于FastAPI，并支持多种模型。作者还提到了显卡资源利用和潜在的商业化尝试，欢迎有需要的用户联系。

🎤作者开发字幕网页的初衷是满足转录字幕和观看无字幕电影的需求，避免了传统客户端和模型下载的麻烦，实现了网页端操作。

💡为了优化字幕翻译质量，作者创新性地使用了LLM，并结合上下文语境进行翻译，一次性处理10条字幕，而非逐句翻译，从而提升了翻译的准确性和流畅度。

💻该网页前端部署在Vercel上，方便用户访问和使用。后端基于FastAPI，支持在4060ti显卡上使用large-v2模型或其他兼容OpenAI API whisper格式的后端，提供了高效的字幕处理能力。

💰作者考虑将该项目商业化，为有稳定API需求或需要技术支持的用户提供服务，并开放联系方式。

🛠️作者开源了前端代码和后端代码，方便有兴趣的用户进行学习和二次开发。

起因是偶尔需要帮同事转录字幕，或者自己看一些没有字幕的电影想要高质量的双语字幕。

网上转了一圈基本都是需要安装客户端，下载模型。我想这是发个 API 就能解决的事情，网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm)，提前把媒体转录成 16kHZ 单声道 opus 格式，降低网络传输压力。

后面发现自己想要使用大模型翻译字幕，网上转了一圈发现大部分是使用 LLM 一句一句翻译，完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版，一次翻译 10 条字幕。

前端部署在 vercel 了 https://whisper-web-one.vercel.app/
前端代码开源在 https://github.com/heimoshuiyu/whisper-web
后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型，或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以

显卡闲着也是闲着免费提供给有需要的朋友使用，不过我还在能不能靠这个赚点零食钱，如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签