[酷工作] [项目外包] 寻找视频理解外包团队

V2EX 12小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本招聘旨在寻找一支技术实力雄厚的团队，共同完成一项基于生活摄像头视频流的实时语义理解项目。项目核心是识别四类事件：宝宝喂奶、宝宝换尿布、宝宝睡觉以及其他，并精确记录事件的起止时间。项目要求在单卡 NVIDIA A10（24GB显存）硬件上，实现事件检测准确率≥90%，并优化部署以支持≥32的Batch Size。项目包含算法调研、研发、优化及部署四个阶段，期望团队能输出高质量的调研报告、调优后的模型及prompt，并最终在AWS云服务器上完成部署和压力测试，满足性能要求。

💡 项目核心目标是实现生活摄像头视频流的实时语义理解，能准确识别“宝宝喂奶”、“宝宝换尿布”、“宝宝睡觉”及“其他”四类事件，并精确记录事件的起始和结束时间。

💻 项目的技术要求包括在单块NVIDIA A10（24GB显存）硬件上运行，并需优化算法以达到不低于90%的事件检测准确率，同时部署后的Batch Size需要达到32或更高。

📊 项目流程分为四个主要阶段：算法调研（调研4款开源7B多模态模型，收集测试数据，设计prompt，测试准确率，设计视频流读取方案）、算法研发（收集200条测试数据，调参，设计prompt，达到90%准确率）、算法优化（模型量化如GPTQ，KV cache量化，Page KV cache，Continous batching）以及部署（AWS云服务器部署，压力测试，支持动态调度）。

✉️ 申请方式为发送包含团队简历的正式邮件至 meihuan@mails.amoonai.com，并承诺来信必复，邀请有能力的技术团队加入。

我们正在寻找一个富有技术能力的团队，来完成一个视频理解项目。下面是项目任务书的大致情况。

项目概要
生活摄像头视频流实时语义理解，识别四类事件：宝宝喂奶、宝宝换尿布、宝宝睡觉、其他，精准定位起止时间。
•输入源：S3 服务器视频流（ 5 分钟+/段）
•硬件约束：单卡 NVIDIA A10 （ 24GB 显存）
•核心目标：事件检测准确率≥90%，部署优化后 Batch Size≥32

一、算法调研
任务项：
1.调研主流的 4 款开源多模态模型（ 7B ）。
2.收集 50 条左右测试数据。
3.初步设计 prompt 。
4.测试各模型准确率。
5.设计视频流读取方案。
交付内容：
1.调研报告，讨论并确认最终需要使用的模型和视频流读取方案。

二、算法研发
任务项：
1.收集 200 条左右测试数据。（流式数据，时长 5 分钟以上）
2.调参。
3.设计 prompt ，获得准确率。
交付内容：
1.交付准确率达到 90%以上的 prompt 和模型。

三、算法优化
任务项：
1.GPTQ 模型量化。
2.KV cache 量化。
3.Page KV cache 。
4.Continous batching 。
5.测试准确率。
交付内容：
1.交付准确率达到 90%以上的 prompt 和模型。

四、部署
任务项：
1.Aws 云服务器部署。
2.压力测试，测试单卡 A10 最大 batch 。
3.支持云服务商的动态调度计算资源 API 。
交付内容：
1.准确率 90%以上。
2.Batch size 不低于 32 （尽可能大）。

如何申请

请撰写一封正式的邮件，带上您团队的简历，发至 meihuan@mails.amoonai.com ；来信必复。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签