V2EX 11小时前
[分享创造] 偶尔有转录和翻译字幕的需求,于是写了个 使用 ffmpeg(wasm) + whisper 语音转文字 + 大模型翻译字幕的 *网页工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

作者分享了其开发的字幕网页工具,旨在解决转录字幕和观看无字幕电影的需求。该工具通过调用API实现,无需安装客户端或下载模型,方便用户使用。为了提升翻译质量,作者采用LLM结合上下文语境进行翻译,一次性翻译10条字幕,避免了传统LLM逐句翻译的不足。该网页前端部署在Vercel上,后端基于FastAPI,并支持多种模型。作者还提到了显卡资源利用和潜在的商业化尝试,欢迎有需要的用户联系。

🎤作者开发字幕网页的初衷是满足转录字幕和观看无字幕电影的需求,避免了传统客户端和模型下载的麻烦,实现了网页端操作。

💡为了优化字幕翻译质量,作者创新性地使用了LLM,并结合上下文语境进行翻译,一次性处理10条字幕,而非逐句翻译,从而提升了翻译的准确性和流畅度。

💻该网页前端部署在Vercel上,方便用户访问和使用。后端基于FastAPI,支持在4060ti显卡上使用large-v2模型或其他兼容OpenAI API whisper格式的后端,提供了高效的字幕处理能力。

💰作者考虑将该项目商业化,为有稳定API需求或需要技术支持的用户提供服务,并开放联系方式。

🛠️作者开源了前端代码和后端代码,方便有兴趣的用户进行学习和二次开发。

起因是偶尔需要帮同事转录字幕,或者自己看一些没有字幕的电影想要高质量的双语字幕。

网上转了一圈基本都是需要安装客户端,下载模型。我想这是发个 API 就能解决的事情,网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm),提前把媒体转录成 16kHZ 单声道 opus 格式,降低网络传输压力。

后面发现自己想要使用大模型翻译字幕,网上转了一圈发现大部分是使用 LLM 一句一句翻译,完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版,一次翻译 10 条字幕。

前端部署在 vercel 了 https://whisper-web-one.vercel.app/
前端代码开源在 https://github.com/heimoshuiyu/whisper-web
后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型,或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以

显卡闲着也是闲着免费提供给有需要的朋友使用,不过我还在能不能靠这个赚点零食钱,如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

字幕 LLM 翻译 网页工具 开源
相关文章