起因是偶尔需要帮同事转录字幕,或者自己看一些没有字幕的电影想要高质量的双语字幕。
网上转了一圈基本都是需要安装客户端,下载模型。我想这是发个 API 就能解决的事情,网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm),提前把媒体转录成 16kHZ 单声道 opus 格式,降低网络传输压力。
后面发现自己想要使用大模型翻译字幕,网上转了一圈发现大部分是使用 LLM 一句一句翻译,完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版,一次翻译 10 条字幕。
前端部署在 vercel 了 https://whisper-web-one.vercel.app/
前端代码开源在 https://github.com/heimoshuiyu/whisper-web
后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型,或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以
显卡闲着也是闲着免费提供给有需要的朋友使用,不过我还在能不能靠这个赚点零食钱,如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39