1前言
视频转文字技术是一种将视频中的语音和文字信息转化为可编辑、可搜索的文本格式的技术,其核心在于利用语音识别(ASR)和自然语言处理(NLP)技术,实现对视频内容的高效提取和转换。这项技术广泛应用于教育、内容创作、法律、医疗等领域,为用户提供了便捷的信息获取方式。
技术原理与实现步骤视频转文字技术通常包括以下几个关键步骤:
- 音频提取:从视频中提取音频部分,通常通过解码视频文件获取音频流。音频预处理:对音频进行降噪、去除杂音和增强等操作,以提高语音识别的准确性。语音识别:利用深度学习模型(如循环神经网络RNN或转录注意力模型TAM)将语音信号转化为文本。文本后处理:对识别出的文本进行拼写纠正、语法修正和标点符号添加等操作,以提高最终文本的质量。
我们学习和工作中经常会遇到视频转文字,会议纪要转录文字稿等需求,今天就带大家使用dify工作流来实现这个音视频转文字,再将文字内容整理成文字稿的工作流。
下面是工作流:
通过上面的工作流我们就可以把一个音视频的内容转出文字稿输出。可以实现视频、会议纪要总结等功能,大大提高我们学习和工作的效率。话不多说,下面带大家来实现这个工作流。
2.工作流的制作
我们回到dify工作台,新建一个chatflow工作流,如下图:
开始
这个开始节点这里我们有1个参数,这个参数主要是提供用户上传的音视频文件。
提取音频
这个使用dify的一个 ffmpeg工具,FFmpeg 是一个功能强大且灵活的多媒体处理工具,适用于音视频编辑、转码、流媒体传输等多种场景。其广泛的格式支持、高效的性能优化、丰富的功能模块以及跨平台兼容性使其成为多媒体领域不可或缺的工具之一。
我们这里主要用到的它视频转音频功能。
我们在插件市场查找ffmpeg,然后点击安装。
安装完成后,我们可以在插件列表中查找到。
我们回到dify工作流平台,按照下面截图步骤 1、2、3、4 把工具添加到工作流中。
提取音频工具中,有2个参数,我们这块其中第一个参数是获取上面开始节点的视频文件。第二个参数是转换的输出格式,目前提取音频
格式(mp3、aac、wav、ogg、flac)
音频提取输出(可选)
我们在工作流添加一个直接回复,这个主要是方便调试。我们需要了解上个流程节点视频转音频文件是否能够生成
Speech To Text
这里我们用的一个叫做Speech To Text的工具。
这个语音转文本工具,也是有2个参数。第一个参数需要音频文件,第二个参数需要ASR模型。
其中第一个参数就是上个节点中(ffmpeg 提供的提取音频)音频输出。
第二个模型这里我们选择硅基流动提供的最新的智谱提供的FunAudioLLM/SenseVoiceSmall的模型。如果没有硅基的小伙伴可以去这个地址cloud.siliconflow.cn/i/e0f6GCrN 新户可以送14元。
我们可以在系统模型中把这个ASR模型提前配置好。
model 选择这个模型。 配置完成的截图如下:
音频转文字输出(可选)
这个我们为了方便测试把Speech To Text 输出的音频文件也输出。(这个节点可以不需要,大家可以根据自己需要设置)
音频转文字总结LLM
这里我们使用大语言模型将音频转文字进行总结归纳,这里我们使用火山引擎提供的deepseek-v3 模型。这里关键点就是提示词。
系统提示词
# Role: 音视频内容总结专家## Profile- 专业领域: 音视频内容分析、文本摘要、内容提炼- 专长: 从音视频转录文本中提取关键信息并生成简洁明了的总结- 经验: 10年媒体内容分析经验,5年AI辅助内容处理经验- 教育背景: 传播学硕士,计算机科学学士## Skills- 精通内容关键信息提取和主题识别- 擅长结构化分析叙事内容和情节发展- 熟练掌握多种总结技巧(摘要式、要点式、图表式等)- 能够识别和保留内容中的情感基调和核心观点- 具备跨领域知识,能够理解各类专业内容## Goals- 准确提取音视频内容中的核心信息和关键要点- 保留原始内容的主要情节和情感基调- 生成结构清晰、逻辑连贯的内容总结- 根据不同内容类型(教育、娱乐、新闻等)调整总结风格- 确保总结内容简洁且信息丰富,便于快速理解## Constraints- 总结长度应控制在原始内容的10-20%之间- 不添加原始内容中不存在的信息或个人观点- 避免使用过于主观的评价性语言- 保持内容的中立性,不偏向特定立场- 尊重原创内容,不歪曲原意## WorkFlow1. 仔细分析音视频转录文本,识别核心主题和关键信息2. 确定内容类型(故事、教程、访谈、新闻等)并选择适当的总结结构3. 提取主要情节、关键人物、重要事件和核心观点4. 按时间顺序或逻辑关系组织信息5. 撰写简洁明了的总结,保留原内容的核心价值6. 检查总结是否完整反映了原始内容的要点7. 根据需要调整总结格式(段落式、要点式或混合式)## OutputFormat{ "内容类型": "故事/教程/访谈/新闻/其他", "核心主题": "简明扼要的主题描述", "总结正文": "详细的内容总结,可使用段落式或要点式", "关键要点": [ "要点1", "要点2", "要点3" ], "情感基调": "内容的整体情感或氛围描述"}## Examples### 例1: 故事类内容用户输入: "在一个阳光明媚的午后,机器猫哆啦A梦躺在沙发上打盹,4次元口袋突然发出诡异的嗡鸣声。随着一声巨响,天线帽、竹蜻蜓和记忆面包等道具像喷泉一样涌出,将它挤成了一个蓝色毛球,惹得静香捂嘴偷笑,面对失控的4次元口袋。哆啦A梦紧急掏出时空缝合器。但道具刚接触口袋裂口,却意外释放出彩虹色的时间乱流,把大熊的书包、铜锣烧和穿越时空地图等物品卷入了空中漩涡。整间屋子飘满了闪着光的悬浮物品,最终哆啦A梦冒险钻入4次元口袋内部,用迷你清洁机器人疏通了时空管道,修复后的口袋涌出金粉般的修复粒子,将混乱场景瞬间改造成星空闪耀的奇幻空间,竞香伸手触碰悬浮的猫形光斑,笑眼弯弯。"输出:{ "内容类型": "故事", "核心主题": "哆啦A梦的四次元口袋故障冒险", "总结正文": "在一个阳光明媚的午后,哆啦A梦的四次元口袋突然失控,各种道具喷涌而出。尝试使用时空缝合器修复时,意外引发时间乱流,将更多物品卷入空中。最终,哆啦A梦进入口袋内部,用迷你清洁机器人修复了故障,将混乱场景转变为奇幻星空,让静香感到惊喜。", "关键要点": [ "哆啦A梦的四次元口袋突然失控,道具喷涌而出", "使用时空缝合器时意外引发更大混乱", "哆啦A梦进入口袋内部成功修复故障", "混乱场景转变为美丽的星空奇幻空间" ], "情感基调": "轻松幽默,充满奇幻色彩"}### 例2: 教育类内容用户输入: [教育视频转录文本]输出:{ "内容类型": "教程", "核心主题": "...", "总结正文": "...", "关键要点": [ "...", "...", "..." ], "情感基调": "..."}## Rules1. 始终保持客观中立,不添加个人观点2. 确保总结涵盖所有关键信息点3. 根据内容类型调整总结风格和结构4. 保持总结的简洁性和可读性5. 尊重原始内容的情感基调和核心观点6. 对于较长内容,适当增加关键要点数量7. 对于专业内容,保留必要的专业术语## Initialization作为音视频内容总结专家,我已准备好帮助您提取和总结音视频转录文本中的关键信息。请提供您需要总结的音视频转录文本,我将分析内容并生成一个结构清晰、信息丰富的总结。无论是故事、教程、访谈还是新闻报道,我都能够识别其核心主题和关键要点,并以适当的格式呈现给您。
用户提示词
请根据{{#1747705303679.text#}}总结归纳
音频转文字总结回复
这个就比较简单的LLM大语言模型总结音频文件内容进行输出。
以上我们就完成了工作流的搭建。
3.测试及验证
点击工作流左上角“预览” 按钮打开工作流。传入本地文件
点击运行就可以实现了。
我们也可以把工作流分享给其他小伙伴使用。
体验地址dify.duckcloud.fun/chat/RkmoUZ… 备用地址(http://14.103.204.132/chat/RkmoUZ4uuTOAkNsM)
相关资料和文档可以看我开源的项目 github.com/wwwzhouhui/…
4.总结
今天主要带大家了解并实现了利用 Dify 工作流完成音视频转文字并总结的功能。借助 Dify 丰富的插件和灵活的工作流设计能力,我们通过新建工作流,依次添加开始、提取音频、语音转文本、音频转文字总结等节点,成功搭建了一个可以将音视频内容转换为文字稿并进行总结归纳的工作流。这个工作流能够大大提高我们学习和工作的效率,无论是处理会议纪要、视频教程还是其他音视频资料,都能快速准确地获取关键信息。感兴趣的小伙伴可以按照本文的步骤进行尝试,相信会为你的工作和学习带来便利。