一、项目概述
本项目旨在开发一个基于 AI 的英语内容生成系统 v1.0 ,支持将英文 MP3 或 TXT 输入,自动生成英语学习内容,包括:
• 简化英文文本;
• 中英双语字幕( SRT 格式);
• 美音 AI 配音( MP3 格式);
• 场景图像插图(静图风格);
• 视频输出( MP4 格式,图+音+字幕合成)。
该系统服务于教学素材制作人员,核心目标为提升内容处理自动化效率,最终成果可作为教师使用的教学视频素材。
____
二、开发任务模块
开发者需根据我方提供的功能规范文档,实现以下模块功能:
1. 音频转文字(英文 MP3 转写,含时间戳)
2. 英文简化(控制词汇难度,输出简洁句)
3. 中文翻译(辅助理解,非强制)
4. 关键词提取(每句提炼 1–3 个关键词)
5. 图像生成(关键词驱动,图像风格可设)
6. AI 配音生成(美音朗读,控制语速+语调)
7. 字幕文件生成(中英双语,标准 .srt 文件)
8. 视频合成模块(将图 + 音 + 字幕合成 MP4 视频)
9. 前端操作页面(上传输入 → 设置参数 → 下载输出)
____
三、技术要求与实现说明
• 所有 AI 服务接口由我方提供账号( OpenAI / ElevenLabs 等)
• 编程语言不限,推荐 Python + Vue / React
• 支持上传 MP3 / TXT ,前端选择参数:词汇等级 / 是否翻译 / 语速 / 图像风格等
• 支持输出:MP4 (视频)、SRT (字幕)、MP3 (音频)
• 不需要数据库,不涉及登录权限
• 系统结果支持打包下载或逐项保存
____
四、交付要求
• 提供完整源码(含 README 部署说明)
• 提供可运行版本( Web 页面或本地打包)
• 系统具备完整上传 → 生成 → 下载全流程
• 具备基础错误容错能力(如接口超时、图像失败自动跳过)
• 支持最多 10 条句子的视频生成测试样例
____
五、开发周期
• 总开发周期:10–15 个工作日
• 第 1 周:基础框架 + 接口串联调通
• 第 2 周:前端 UI + 视频生成整合 + 测试优化
____
六、预算参考
• 预期报价范围:¥5,000 – ¥7,000 (人民币)
• 可分阶段付款( 20% 启动 / 50% 验收通过 / 30% 验收交付)
• 不含第三方 API 服务费(由我方账户承担)
____
联系方式:v: aiplatform_x