我们正在寻找一个富有技术能力的团队,来完成一个视频理解项目。下面是项目任务书的大致情况。
项目概要
生活摄像头视频流实时语义理解,识别四类事件:宝宝喂奶、宝宝换尿布、宝宝睡觉、其他,精准定位起止时间。
•输入源:S3 服务器视频流( 5 分钟+/段)
•硬件约束:单卡 NVIDIA A10 ( 24GB 显存)
•核心目标:事件检测准确率≥90%,部署优化后 Batch Size≥32
一、算法调研
任务项:
1.调研主流的 4 款开源多模态模型( 7B )。
2.收集 50 条左右测试数据。
3.初步设计 prompt 。
4.测试各模型准确率。
5.设计视频流读取方案。
交付内容:
1.调研报告,讨论并确认最终需要使用的模型和视频流读取方案。
二、算法研发
任务项:
1.收集 200 条左右测试数据。(流式数据,时长 5 分钟以上)
2.调参。
3.设计 prompt ,获得准确率。
交付内容:
1.交付准确率达到 90%以上的 prompt 和模型。
三、算法优化
任务项:
1.GPTQ 模型量化。
2.KV cache 量化。
3.Page KV cache 。
4.Continous batching 。
5.测试准确率。
交付内容:
1.交付准确率达到 90%以上的 prompt 和模型。
四、部署
任务项:
1.Aws 云服务器部署。
2.压力测试,测试单卡 A10 最大 batch 。
3.支持云服务商的动态调度计算资源 API 。
交付内容:
1.准确率 90%以上。
2.Batch size 不低于 32 (尽可能大)。
如何申请
请撰写一封正式的邮件,带上您团队的简历,发至 meihuan@mails.amoonai.com ;来信必复。