V2EX 12小时前
[分享创造] 偶尔有转录和翻译字幕的需求,于是写了个 使用 ffmpeg(wasm) + whisper 语音转文字 + 大模型翻译字幕的 *网页工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

作者开发了一个基于网页的字幕转录和翻译工具,旨在解决字幕转录和翻译的痛点。该工具集成了ffmpeg(wasm)用于媒体格式转换,并结合LLM技术,实现了一次性翻译多条字幕的功能,提高了翻译效率。前端部署在vercel,后端基于whisper-fastapi,支持多种模型,并提供免费使用。作者希望通过此工具,为有字幕需求的用户提供便利,并探索盈利的可能性。

🎤 **项目初衷:** 作者最初是为了满足转录字幕和观看无字幕电影的需求,发现现有解决方案存在安装客户端和下载模型的麻烦,因此决定开发基于网页的工具。

⚙️ **技术实现:** 该工具前端部署在vercel,并集成了ffmpeg(wasm)用于媒体格式转换,将媒体转录成16kHZ单声道opus格式,以降低网络传输压力。后端基于whisper-fastapi,支持large-v2模型和其他兼容OpenAI API whisper格式的后端。

💡 **核心功能:** 解决了LLM逐句翻译的问题,实现了利用LLM结合上下文语境一次性翻译10条字幕的功能,提高翻译效率。

💰 **使用与盈利:** 作者免费提供该工具,并考虑通过提供稳定API或技术支持的方式进行盈利。

起因是偶尔需要帮同事转录字幕,或者自己看一些没有字幕的电影想要高质量的双语字幕。

网上转了一圈基本都是需要安装客户端,下载模型。我想这是发个 API 就能解决的事情,网页就能做吧。于是写了个网页。并且加入了 ffmpeg(wasm),提前把媒体转录成 16kHZ 单声道 opus 格式,降低网络传输压力。

后面发现自己想要使用大模型翻译字幕,网上转了一圈发现大部分是使用 LLM 一句一句翻译,完全没有利用到 LLM 结合上下文语境做翻译的优势。于是自己实现了一版,一次翻译 10 条字幕。

前端部署在 vercel 了 https://whisper-web-one.vercel.app/
前端代码开源在 https://github.com/heimoshuiyu/whisper-web
后端是自建的 https://github.com/heimoshuiyu/whisper-fastapi 在 4060ti 上使用 large-v2 模型,或者使用其他任何兼容 OpenAI API whisper 格式的后端都可以

显卡闲着也是闲着免费提供给有需要的朋友使用,不过我还在能不能靠这个赚点零食钱,如果有需要稳定 API 或者自建需要技术支持的可以联系我 wx hmsy39

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

字幕工具 LLM 网页应用 Whisper FFmpeg
相关文章